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第 一 篇 基础 篇 


第 1 章 搭建 可 塑 计 算 机 视 帝 工具 集 


对 于 计算 机 视觉 ， 深 度 学 习 是 一 个 始终 绕 不 开 的 话题 ， 本 文 将 告诉 你 如 何 从 零 开 始 搭建 一 
个 友好 的 可 塑性 的 计算 机 视觉 环境 ， 当 然 它 也 支持 深度 学 习 。 

为 什么 要 从 零 开 始 搭建 环境 昵 ? 因为 ， 别 人 建立 的 环境 也 许 并 不 适合 你 ， 而 你 想 要 改变 的 
环境 也 许 会 花费 很 多 时 间 还 不 一 定 有 用 。 为 了 解决 这 个 烦恼 ， 本 文 考虑 搭建 一 个 具有 可 以 定制 
性 并 可 以 灵活 改变 环境 的 计算 机 视觉 工具 集 。 

因为 深度 学 习 在 计算 机 视觉 中 占据 十 分 重要 的 地 位 ， 所 以 本 文 将 以 深度 学 习 为 基础 进行 了 
有 具 集 组 装 。 本 章 会 分 别 介绍 Windows1l0 与 Ubuntu18.04 上 是 如 何 搭建 环境 的 。 如 果 不 想 了 解 
Ubuntu18.04 的 环境 搭建 可 以 直接 跳 过 ， 不 会 影响 后 面 章节 的 阅读 。 


1.1 在 机 器 上 搭建 一 个 深度 学 习 环 境 


本 文 考虑 分 别 在 Windows10 与 Ubuntu18.04 这 两 个 系统 上 搭建 深度 学 习 环境 。 下 面 提 到 的 
软件 包 的 具体 功能 先 不 说 明 ， 之 后 的 章节 再 阐述 其 功能 。 


1.1.1 在 Windows10 上 配置 软件 工具 


首先 ， 需 要 下 载 一 些 必 备 软件 ， 相 关 下 载 链接 我 已 放 入 赠送 资料 里 ， 读 者 可 自行 下 载 : 

@ 下载 Anaconda， 选 择 Anaconda 2019.10 for Windows Installer-Python 3.7 版 本 。 

@ 进入 CUDA 下 载 页 面 ， 依 次 选择 Windows，x86_64，10，exe (local 进行 下 载 。 有 具体 
是 操作 界面 ， 如 图 1.1 所 示 。 

@ 下 载 深 度 学 习 加 速 库 cudnn。 依 次 选择 选择 Download cuDNN vVv7.6.4 (September 27， 


行 下 载 。 


2019), for CUDA 10.0，cuDNN Library for Windows 10 ; 
@ 下载 vscode， 依 次 选择 Windows，System Installer 64 bit。 
@ 选择 64-bit Git for Windows Setup 版 本 下 载 Git。 


CUDA Toolkit 10.0 Archive 


Select Target Platform @ 


>》Base Instatler 


图 1.1 CUDA 下 载 的 选择 界面 


星 中 可 能 出 现 一 些 选项 需要 


这 些 软件 下 载 好 之 后 ， 按 照 提 示 进 行 安装 即 可 。 不 过 ， 安 装 过 和 


按照 本 文 接 下 来 展示 的 图 示 进 行 操作 。 
《1) 安装 CUDA 时 ， 需 要 选择 安装 选项 为 自 定 义 〈 高 级 ) ， 如 图 1.2 所 示 。 


NVIDIA 安装 程序 
nVIDIA 


中 上 ET 
安装 选项 
[> 
Installs allCUDA components and overwrites current 
Display Driver. 


伦 儿 高 级 ) 
outo select the components you wantto instal 


程 中 可 能 会 出 现 闪 炸 。 


备注 :在 安装 过 


1.2 安装 CUDA 时 需要 选择 自 定义 


两 


(2) 安装 CuDNN 时 ， 只 需要 解压 cudnn-10.0-windows10-x64-v7.6.4.38.zip 到 C:Program 
Files\NVIDIA GPU Computing ToolkitACUDAYv10.0 目录 之 下 。 接 着 ， 设 置 Path 的 环境 变量 : 
区 装 完 毕 之 后 ， 打 开 


C:Program FileS\NVIDIA GPU Computing ToolkiACUDAYv10.OMib\x64 。 妆 
1.3 显示 一 致 。 如 果 一 致 ， 恭 喜 安 装 完成 ! 


Power Shell 输入 nvcc -V 验证 是 否 与 图 


图 1.3 验证 nvcc 是 否 正确 安装 


(3) 安装 Anaconda 需要 注意 按照 图 1.4 选择 将 Anaconda 添加 到 环境 变量 。 安 装 完成 2 
后 ， 找 到 开始 菜单 中 的 Anaconda Navigator 图 标 ， 如 图 1.5 所 示 便 可 以 使 用 Anaconda。 


D Anaconda3 2019.10 (64-bib Setup 一 4 


了 Advanced Installation Options 
和 | ANACONDA Customize how Anaconda integrates with Windows 


| Advanced Options 


日 Add Anaconda to the system PATH environment variable 


Notrecommended, Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (64bib", This "add to PATH"” option makes 
Anaconda get found before previously installed software, but may 
cause problems requiring you to uninstall and reinstall Anaconda. 


wjRegister Anaconda as the System Python 3.7 


This will alow other programs, sudh as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.7 on the system, 


二 ca 


喇 


1.4 Anaconda 安装 


一 最 近 添加 Productivity 


改 Spyder (Anaconda3) 


Jupyter Notebook (Anaconda3) (> 


Reset Spyder Settings (Anaconda3) Office Microsoft Edge 


Anaconda3 (64-bib) 
Anaconda Navigator (Anaconda.… 
Anaconda Powershell Prompt (… 
Anaconda Prompt (Anaconda3) 
Jupyter Notebook (Anaconda3) 
Reset Spyder Settings (Anacond.… 


Spyder (Anaconda3) 


(= Microsoft Edge 
Microsoft Solitaire Collection 


N 


国 NVIDIA Corporation v 
几 在 此 键入 进行 搜索 


1.5 找到 Anaconda 启动 的 图 标 

(4) 为 了 将 Git 与 vscode 紧密 结合 ， 需 要 先 安 装 vscode， 再 安装 Git。 为 了 方便 vscode 
更 好 的 管理 您 的 文件 ， 安 装 vscode 时 需要 按照 图 1.6 进行 选择 。 安 装 Git 需要 按照 图 1.7 进行 
选择 将 vscode 作为 Git 的 默认 编辑 器 。 


喇 


|] 安装 程序 - Microsoft Visual Studio Code (Usen 一 光 
选择 其 他 任务 
应 执行 哪些 其 他 任务 ? 


第 洗 s 玫 Visual Studio Code 时 希望 安装 程序 来 执行 的 其 他 任务 , 然后 单 击 " 下 一 


其 他 快捷 方式 : 

[v] 创建 桌面 快捷 方式 D) 
其 他 ; 
将 "通过 Code 打开 ' 哲 作 添 加 到 Windows 资源 管理 器 文件 上 下 文 菜单 
] 将 "通过 code 打开 ' 哲 作 添 加 到 Windows 资源 管理 器 目录 上 下 文 菜单 
将 code 注册 为 受 支持 的 文件 类 型 的 编辑 器 

回 添加 到 PATH 人 重 早 后 生效 ) 


< 上 一 步 6) | 下 一 步 N) > 取消 


的 选项 


其 
册 


图 1.6 选择 方便 vscode 各 


个 Git 2.23.0 Setup 一 


基 
Choosing the default editor used by Git Se 
Whidh editor would you like Git to use? 人 4 


Use Vim (the ubiquitous text editor) as Gits defeult editor Y 
Use the Nano editor by defsult 

Use Vim (the ubiquitous text editor) as Gits defeult editor 

Use Notepad++ as Gits default editor 

Use Visual Studio Code as Gits default editor 


Use Visual Studio Code Insiders as Gits default editor 
Use Sublime Text as Gits default editor 
Use Atom as Gits default editor 
Select other editor as Gits default editor 
may setitto some other editor of your 中 oice, 


<Back Next > Cancel 


图 1.7 将 vscode 作为 Git 的 默认 编辑 器 
这 样 vscode 与 Git 紧密 结合 在 一 起 了 。 


1.1.2 在 Ubuntu18.04 上 配置 软件 工具 


在 Ubuntu 系统 上 搭建 深度 学 习 系 统 是 很 多 人 的 豆 梦 ， 为 了 大 家 少 走 弯 路 ， 赶 走 足 梦 ， 本 
文 接 下 来 介绍 如 何 从 安装 Ubuntu 开始 搭建 Ubuntu 深度 学 习 环 境 。 和 Windows10 一 样 ， 我 们 
同样 需要 先 下载 一 些 必 备 软件 ， 读 者 可 在 赠送 资料 找到 下 载 链 接 ; 

@ 下载 Anaconda， 选 择 Anaconda 2019.10 for Linux Installer-Python 3.7 版 本 。 

@ 下载 Ubuntu 镜像 ， 选 择 Ubuntu 18.04.3 LTS 版 本 进行 下 载 。 

@ 下 载 CUDA， 依 次 选择 Linux，x86 64，18.04，runfile (local ， 之 后 下 载 Base 
Installer 与 Patch 1。 
@ 下 载 rufs， 用 于 制作 Ubuntu 启动 盘 
@ 下载 cudnn: 深度 学 习 加 速 库 。 依 次 选择 选择 Download cuDNN v7.6.4 (September 27， 

2019), for CUDA 10.0，cuDNN Runtime Library for Ubuntu18.04 (Deb) 进行 下 载 。 
下 载 好 软件 之 后 ， 需 要 使 用 癌 盘 制作 一 个 Ubuntu 启动 盘 。 我 们 使 用 rufs 制 Ubuntu 启动 盘 。 
《1) 双击 rufs 软件 包 ， 弹 出 的 界面 ， 设 置 如 图 1.8 所 示 。 


多 Rufus 3.8.1580 琶 头 


设备 
刘 新 伟 (6 [134 GB] 
引导 类 型 选择 
ubuntu-18.04.3-desktop-amd64.iso 


持久 分 区 大 小 Ubuntu 笠 像 


分 区 类 型 目标 系统 类 型 
GPT UEFI ( 非 CSM) 


Y 


格式 化 选项 


卷 标 


Ubuntu 18.04.3 LTS amd64 


文件 系统 
Large FAT32 ( 暑 认 ) 


@ 田 中 将 国 


EN\casperfilesystem.squashfs (1.9 GB) 


1.8 rufs 软件 界 盏 


制作 完毕 关闭 rufs 软件 ， 并 弹出 U 盘 。 

(2) 关闭 待 安装 的 机 器 ， 之 后 上 插入 U 盘 ， 再 启动 机 器 ， 选 择 Install Ubuntu， 进 入 安 
装 界 面 。 

《3) 选择 系统 语言 为 中 文 
《5) 不 断 点 击 继续 ， 直 到 安装 类 型 的 界面 ， 选 择 清 除 整 个 磁盘 并 安装 Ubuntu 〈 如 果 想 

安装 双 系 统 ， 可 选择 安装 Ubuntu， 与 其 他 系统 共存 ) 。 
《6) 接着 按照 界面 的 提示 进行 操作 即 可 。 直 到 提示 您 重启 电脑 时 ， 您 点 击 确认 ， 之 后 等 
到 屏幕 关闭 拔 掉 U 盘 ， 让 机 器 自动 重启 。 如 此 ， 您 便 完 成 了 Ubuntu 的 安装 。 
电脑 重启 之 后 需要 配置 网 络 连接 ， 配 置 好 之 后 ， 我 们 需要 做 一 些 准 备 工 作 。 

(1) 智能 升级 。 安 装 新 软件 包 并 删除 废弃 的 软件 包 : 

$ sudo apt-get dist-upgrade 

$ sudo apt-get autoremove 

《2) 删除 一 些 不 需要 的 内 置 软件 ; 

$ sudo apt-get remove libreoffice-common 

$$ sudo apt-get remove unity-webapps-common 

$ sudo apt-get autoremove 

(3) 启用 图 标点 击 最 小 化 操作 : 

$ gsettings set org.gnome.shell.extensions.dash-to-dock click-action Iminimize' 

(4) 更 新 和 升级 系统 : 

$ sudo apt update 

$sudo apt upgrade 

45) 安装 Git: 

$ sudo apt-get install git 
配置 git 的 两 个 重要 信息 ，user.name 和 :user.email， 终 端 输入 如 下 命令 即 可 设置 : 


意 


一 


$ git config --global user.name "Your Name" 

$git config --global user.email "email@example.com 
(6) 支持 挂 载 exfat; 

$ sudo apt-get install exfat-fuse 

7) 安装 gt++ gcc 开发 必 备 编译 库 〈 为 之 后 安装 CUDA 做 准备 ) : 

$ sudo apt-get install build-essential 

(8) 为 了 支持 ssh server， 需 要 : 

$ sudo apt-get install openssh-server 

$ sudo /etcinit.d/ssh start 

$ sudo service ssh start 

《9) 为 了 防止 Ubuntu 系统 被 破坏 了 ， 我 们 需要 一 个 可 以 进行 备份 和 还 原 的 工具 : 
TimeShift: 

$ sudo apt-add-repository -y ppa:teejee2008/ppa 

$ sudo apt update 

$ sudo apt install timeshift 

(10) 接着 ， 需 要 安装 Anaconda: 

$ sh Anaconda3-2019.10-Linux-x86_64.sh 

安装 过 程 中 需要 注意 选择 conda init 设置 为 yes 以 方便 我 们 管理 Python 环境 并 将 Ubuntu 系 
统 的 Python 环境 设置 为 Anaconda， 如 果 你 还 想 要 使 用 原来 的 Python 环境 ， 可 以 在 终端 输入 如 
下 命令 : 

$ conda config --set auto_activate _ base false 

Anaconda 的 打开 使 用 命令 : anaconda-navigator。 

(11) 最 后 ， 还 需要 安装 vscode;: 
$ sudo dpkg -icode_1.39.2-1571154070_amd64.deb 

vscode 的 打开 使 用 命令 code 即 可 。 

Ubuntu 系统 的 深度 学 习 基础 环境 已 经 搭建 完毕 ! 下 面 需要 安装 CUDA 与 cuDNN。 
因为 安装 CUDA 是 一 个 很 危险 的 行为 ， 设 置 出 错 很 容易 把 系统 玩 朋 ， 所 以 可 以 先 使 用 
TimeShift 备份 当前 系统 。 做 深度 学 习 ， 要 用 到 NVIDIA 的 显卡 ， 因 此 需要 改 显 卡 驱动 ， 禁 用 
nouveau。 即 以 管理 员 是 身份 打开 /etc/modprobe.d/blacklistconf 文件 ， 然 后 添加 内 容 : blacklist 


上 


nouveau # 和 示 加 数据 用 来 禁用 nouveau。 而 打开 文件 我 们 可 以 使 用 vscode 进行 文件 编辑 : 

$ sudo code /etc/modprobe.d/blacklist.conf 
首先 进入 CUDA 安装 包 所 在 目录 运行 : 

$ sudo ubuntu-drivers autoinstall 

$ sudo sh cuda_10.0.130_410.48 linux.run 

$ sudo sh cuda_10.0.130.1 linux.run 

注意 : 最 好 不 要 选择 安装 0penGL 库 ， 否 则 可 能 无 法 顺利 安装 CUDA。 如 果 下 载 速度 很 慢 可 
以 修改 下 载 源 为 阿里 云 。 安 装 完 毕 之 后 ， 运 行 nvidia-smi 检查 CUDA 是 否 安装 正确 。 

最 后 需要 安装 cuDNN: 

sudo dpkg -ilibcudnn7_7.6.4.38+cuda10.0_ amd64.deb 


1.1.3 设置 清华 镜像 


为 了 提高 pip 与 conda 安装 软件 包 的 速度 ， 需 要 设置 清华 镜像 。 对 于 pip，Windows10 设置 
的 方法 是 一 样 的 ， 即 ; 


$ pip install --upgrade pip -U#-U == --User 

$ pip config set global.index-url https:Wpypituna.tsinghua.edu.cmn/simple 
而 对 于 conda， 在 Windows10 中 这 样 设 置 ， 
$ conda config --add channels https:/mirrors.tunatsinghua.edu.cm/anaconda/pkgs/free/ 

$ conda config --add channels https:Wmirrors.tuna.tsinghua.edu.cmanaconda/pkgs/main/ 

在 Ubuntul18.04 中 设置 conda， 需 要 借助 vscode 修改 用 户 目 录 下 的 .condarc ， 即 


code~/.condarc， 然 后 添加 如 下 内 容 : 


channels: 
- defaults 
show_channel_urls: true 
default channels: 
- https:Vmirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main 
- https:Vmirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free 
- https:Vmirrors.tuna.tsinghua.edu.cn/anaconda/pkgsr 
custom_channels: 
conda-forge: https:Vmirrors.tuna.tsinghua.edu.cmn/anaconda/cloud 
msys2: https:WVmirrors.tuna.tsinghua.edu.cm/anaconda/cloud 
bioconda: httpsWmirrors.tuna.tsinghua.edu.cm/anaconda/cloud 
menpo: httpsWmirrors.tuna.tsinghua.edu.cm/anaconda/cloud 
pytorch: https:Vmirrors.tuna.tsinghua.edu.cn/anacondaycloud 
simpleitk: https:Vmirrors.tunatsinghua.edu.cm/anaconda/cloud 


1.2 安装 深度 学 习 框架 


在 安装 深度 学 习 框架 之 前 ， 先 了 解 一 下 Anaconda， 一 个 用 于 科学 计算 的 Python 发 行 版 ， 


文 持 Linux、Mac、Windows， 包 含 众 多 流行 的 科学 计算 、 数 据 分 析 的 Python 包 。 


Anaconda 提供 了 十 分 强大 的 Python 环境 与 包 的 管理 机 制 ， 本 小 节 将 利用 它 这 一 特性 来 说 


明 如 何在 同一 台 机 器 上 创建 多 个 深度 学 习 框 架 。 由 于 深度 学 习 框 架 的 安装 在 Windows10 与 


他 


在 
和 
三 


冲突 问题 。 因 而 ， 为 了 让 深度 学 习 框 架 之 间 不 发 生 冲 突 ， 需 要 借助 conda 对 Python 的 环境 进行 


至 


Ubuntu 18.04 上 是 一 样 的 ， 所 以 下 面 我 便 不 在 言明 是 在 哪个 系统 上 进行 操作 。 


如 果 想 要 使 用 和 管理 多 个 框架 ， 如 果 将 它们 均 安 装 在 同一 环境 之 下 ， 往 往 很 容易 发 生 包 的 


| 


8， 下 面 看 看 如 何 创建 新 的 Python 环境 。 


(1) 打开 Anaconda Navigator 并 依次 选择 Environments，Create， 接 着 输入 环境 的 名 字 并 


选择 Python 版 本 ， 如 图 1.9 所 示 。 
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1.9 创建 一 个 新 环境 


下 面 以 TensorFlow 为 例 ， 说 明 如 何 安装 包 。 
(2) 在 新 创建 的 环境 中 打开 终端 ， 如 图 1.10 所 示 。 
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图 1.10 打开 新 的 终端 


然后 ， 在 终端 输入 命令 ; 

$ pip install tensorflow-gpu 

完成 TensorFlow 框架 的 GPU 版 本 安装 。 

我 们 不 仅仅 满足 于 在 终端 运行 Python 程序 ， 如 果 想 要 在 Notebook， 也 可 以 运行 新 创建 
环境 岂 不 妙 哉 ! 


由 


在 Tensorflow 环境 的 终端 输入 : 
$ conda install ipykernel 


$ python -m ipykernel install --user --name tensorflow --display-name "tensorflow'" 


$ pip install jupyter 


此 时 ， 再 次 打开 Notebook， 则 会 呈现 两 个 环境 : tensorflow 与 python 3， 如 图 1.11 所 示 。 
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图 1.11 两 个 Python 环境 
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选择 tensorflow， 进 入 Notebook 编辑 界面 ， 我 们 测试 GPU 是 否 可 以 正常 使 用 ， 如 图 1.12 


所 示 。 


tebooks/Untided1.Ipynbzkernel_name=tensorflow 


二 几 U pyter Untitled1 Last Checkpoint: 13 minutes ago (unsaved changes) 


File Edit View Insert Cell Kernel Widgets Help 


四 十 23 外 吕 个 中 HRun 国 C 种 code v| | 加 


In [1]: :import tensorflow as tf 


with tf.device(" /cpu:98 ): 
a = tf.constant ([1.96，2.6，3.96]，shape=[3]，name= a') 
b = tf.constant ([1.6，2.6，3.9]，shape=[3]，name='"b ') 
with tf.device( /gpu:1 ): 
c=ad+b 


In [ ]: 


图 1.12 测试 tensorflow gpu 是 否 使 用 正常 


代码 没有 报错 ， 说 明 GPU 配置 完成 。 需 要 注意 的 是 在 Ubuntu 系统 上 如 果 测 试 GPU 失败 ， 


可 以 尝试 运行 如 下 命令 : 
$ conda install cudatoolkit=10.0 
$ conda install cudnn=7.6 


这 样 你 便 可 以 拥有 两 个 互 不 干扰 的 jupyter 环境 ! 为 了 方便 以 后 切换 不 同 的 深度 学 习 杠 


按照 上 述 的 步骤 分 别 创建 MXNet、Pytorch 深度 学 习 环境 。 
安装 MXNet 的 命令 是 : 
$ conda install ipykernel 
$ python -m ipykernel install --user --name mxnet --display-name "MXNet" 
$ pip install jupyter 
$ pip install mxnet-cu100 
安装 Pytorch 的 命令 是 : 
$ conda install ipykernel 


$ python -m ipykernel install --user --name torch --display-name "Pytorch" 
$ pip install jupyter 


洪 


$ conda install pytorch torchvision cudatoolkit=10.0 -c pytorch 


1.3 桥接 Ubuntu 与 Windows 


对 于 同一 个 局 域 网 的 两 台 机 器 ， 一 台 安 装 了 Windows10， 一 台 安 装 了 Ubuntu18.04。 我 们 
想 要 利用 SSH 协议 桥接 这 两 台 机 器 ， 对 于 Ubuntu 系统 我 们 已 经 配置 好 了 其 SSH Server， 而 
Windows10 需要 我 们 做 一 些 工 作 。 
在 Windows Server2019 或 Windows 10 1809 及 以 上 设备 上 安装 OpenSS 玉 很 简单 。 只 需要 
通过 PowerShell 输入 如 下 命令 安装 OpenSSH 即 可 。 《参考 https:/docs.microsoftcom/zph- 
cn/windows-serveradministration/openssh/openssh_install_firstuse ) 

$ Get-WindowsCapability -Online | ? Name -like 'OpenSSH” 

$#Installthe OpenSSH Server 

$ Add-WindowsCapability -Online -Name OpenSSH.Server~~~~0.0.1.0 

而 对 于 低 版 本 的 系统 ， 则 需要 下 载 https:Wgithub.com/PowerShel/Win32-OpenSSH/releases 
中 的 代码 ， 然 后 将 其 解压 并 将 解压 后 的 文件 目录 添加 Windows 系统 的 Path 环境 变量 之 中 。 然 
后 ， 还 需要 在 终端 〈PowerShell) 打开 解压 后 的 文件 目录 并 输入 如 下 命令 来 完成 SSH Server 的 
配置 : 

$ install-sshd.ps1 

$ 、\FixHostFilePermissions.ps1 


配置 好 SSH Server 之 后 ， 我 们 便 可 以 利用 SSH 连接 这 两 台 机 器 了 。 
比如 ， 在 Windows10 系统 打开 PowerShell 并 使 用 SSH 连接 Ubuntu18.04 的 机 器 : 
$ ssh xinet@192.168.42.7 
其 中 xinet@192.168.42.7 的 组 成 是 用户 名 @IP 地 址 。 
这 样 你 便 可 以 像 使 用 Ubuntu 系统 的 终端 进行 操作 

(1) conda activate pytorch 启动 我 们 之 前 创建 的 Pytorch 环境 

(2) pip install 或 者 conda install 是 用 来 安装 Python 包 的 命令 

(3) 待 你 在 终端 的 操作 完成 之 后 ， 需 要 使 用 命令 exit 退出 ssh 连接 。 


1.4 Ubuntu 多 用 户 共 享 使 用 深度 学 习 环 境 


我 们 可 以 使 用 命令 sudo adduser 用 户 名 的 方式 创建 新 用 户 。 创 建新 用 户 之 后 ， 便 可 以 令 其 
使 用 共享 环境 。 比 如 我 们 在 用 户 A 之 中 配置 了 深度 学 习 环境 ， 而 用 户 B 想 要 使 用 用 户 A 的 深 
度 学 习 环境 只 需要 运行 命令 source /home/A/.bashrc 即 可 激活 深度 学 习 环境 。 如 果 不 想 要 输入 这 
么 长 或 者 不 想 用 户 之 间 的 环境 进行 干扰 ， 可 以 在 root 权限 之 下 做 如 下 操作 : 

$ su root 

$ cat /home/A/.bashrc >> /home/B/.bashrc 


之 后 您 只 需要 运行 如 下 命令 即 可 激活 深度 学 习 环 境 : 

$ source >/,bashrc 

情景 : 我 们 不 想 建 立 远 程 桌面 且 又 想 要 使 用 Ubuntu 系统 的 Jupyter Notebook， 该 怎么 办 ? 
我 们 可 以 使 用 MobaXterm 软件 来 解决 该 情景 问题 。 有 具体 操作 方法 : 

进入 网 站 https:Wmobaxterm.mobatek.netdownload.html 下 载 软 件 。 安 装 好 之 后 ， 创 建 一 个 


Session， 如 图 1.13 所 示 。 


Terminal ”Sessions “View ”Xserver Tools Games Settings “Mac ros Help 
四 次 
国 冤 准 明 让 国立 刍 由 区 @ X 0 
Session ”Servers 。 Tools 。 Games ”Sessions 。 View Spit MultiExec Tunneling Packages 。 Settingos 。 Help Xserver 。 Exit 
Session settings X 
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SSH ”Telnet Rsh Xdmcp “RDP VNC FTP SFTP ”Serial File Shell Browser Mosh  Aws S3  WSL 


匀 Basic SSH settings 


Remaote host *|192.168.42 才 回 Specify usemame |jB 经 Port [22 一 


三 Advanced SSH settings 图 Terminal settings 和 Network settings 信 Bookmark settings 


Secure Shell (SSH) session 吗 


名 ok 加 cancel 


图 1.13 创建 一 个 Session 


点 击 OK 之 后 ， 进 入 Ubuntu 系统 下 的 用 户 B 所 在 账户 下 的 终端 。 虽 然 这 是 一 个 终端 ， 但 
是 此 终端 还 可 以 做 一 些 仿真 的 工作 ， 比 如 打开 Jupyter Notebook， 如 图 1.14 所 示 。 
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1.14 在 windows 系统 打开 远 端 的 Ubuntu 系统 的 Jupyter Notebook 


不 仅 如 此 ， 这 里 打开 了 一 个 浏览 器 服务 器 ， 你 可 以 在 此 浏览 器 之 中 下 载 东 西 ， 然 后 将 下 载 
的 东西 拖 电 回 Windows 系统 。 更 多 精彩 内 容 可 以 查看 MobaXterm 官方 网 站 进行 了 解 。 


1.$ 本 章 小 结 


本 章 主要 介绍 如 何 创建 一 个 具有 可 塑性 的 计算 机 视觉 工具 集 。 该 工具 集 集成 了 TensorFlow、 
MXNet、Pytorch 这 三 种 深度 学 习 框 架 ， 介 绍 了 如 何在 Windowsl10 与 Ubuntu18.04 上 分 别 搭建 
深度 学 习 基 础 环境 ， 以 及 如 何 建 立 二 者 之 间 的 SSH 协议 。 同 时 介绍 如 何 令 不 同 的 深度 学 习 环 
境 进行 陋 离 的 策略 。 


第 2 章 计算 机 视觉 之 利器 : vscode 


本 章 主要 介绍 计算 机 视觉 的 一 个 十 分 强大 的 利器 : vscode。 首 先 介绍 vscode 的 
一 些 简 单 使 用 方法 并 安装 Python 插件 ， 最 后 介绍 一 个 十 分 强大 的 文档 编辑 插件 
MPE。 关 于 Python 插件 的 使 用 将 在 下 一 章 进 行 介绍 。 


2.1 本 书 的 注意 事项 


虽然 在 第 1 章 介 绍 了 计算 机 视觉 的 深度 学 习 工 具 集 ， 但 是 它 对 电脑 的 硬件 要 求 
很 高 ， 需 要 你 的 设备 文 持 GPU。 如 果 你 只 是 想 学 习 计 算 机 视觉 且 电 脑 配 置 也 不 高 ， 
那么 仅仅 考虑 使 用 CPU 也 便 是 足够 了 。 因 为 我 不 是 计算 机 专业 出 身 ， 是 由 数学 专 
业 转 行 过 来 的 ， 所 以 对 于 计算 机 是 一 些 名 词 并 不 是 很 了 解 。 故 而 ， 本 书 我 是 以 数学 
专业 的 思想 ， 乃 至 是 一 个 计算 机 荣 乌 的 视角 解读 编程 思想 。 我 们 需要 关心 GPU 与 
CPU 是 什么 ， 只 需要 知道 它们 是 用 来 做 运算 的 工具 即 可 。 
由 于 第 1 章 对 设备 的 要 求 很 高 ， 如 果 您 的 设备 是 一 个 普通 的 电脑 ， 不 需要 考虑 
安装 那么 多 软件 ， 只 需要 安装 Anaconda，Git，vscode 即 可 。 这 三 个 软件 是 十 分 强 
大 的 ， 它 们 会 为 您 的 工作 和 学 习 提供 极 大 的 便利 。 在 之 后 的 章节 会 不 断 的 使 用 到 它 
们 ， 也 会 被 它们 的 强大 逐渐 吸引 的 。 从 本 章 开 始 ， 将 逐步 进入 编程 的 世界 ， 使 用 
vscode 以 及 Anaconda 的 Jupyter Notebook 作为 我 们 的 编程 利器 。 

本 书 尽量 以 Windows 系统 作为 主要 使 用 的 环境 ， 对 于 其 他 系统 ， 大 体 适 用 于 
本 书 的 内 容 。 


2.2 安装 vscode 必 备 插件 


vscode 是 微软 官方 提供 的 一 个 十 分 强大 的 编辑 器 ， 它 提供 了 十 分 强大 的 插件 库 ， 
您 只 需要 安装 您 需要 的 插件 ， 便 可 将 vscode 打造 称 为 史上 最 强大 的 工作 、 学 习 、 
写作 利器 。 下 面 我们 逐一 揭 开 vscode 的 神秘 面纱 。 

刚刚 安装 好 的 vscode 的 界面 如 图 2.1 所 示 是 英文 的 界面 。 如 果 不 想 使 用 英文 界 


面 ， 可 以 如 图 2.2 所 示 下 载 简体 中 文 插件 ， 安 装 完毕 之 后 的 界面 将 会 变 成 简体 中 文 
的 界面 。 
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图 2.1 vscode 最 初 状 态 
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图 2.2 安装 简体 中 文 插件 


继续 像 图 2.2 那样 搜索 Markdown Preview Enhanced 与 python 插件 并 分 别 安装 
它们 ， 这 样 便 完成 了 vscode 的 必 备 插件 的 安装 工作 。 这 里 的 python 插件 是 帮助 你 
进行 Python 代码 的 编写 而 做 的 和 准备， 而 Markdown Preview Enhanced 则 为 你 提供 了 
十 分 强大 的 Markdown 语法 文 持 ， 提 高 了 文档 编辑 或 者 写作 效率 。vscode 也 支持 缩 
放 功 能 : Ctrl+《〈 放 大 ) ，Ctl-〈 缩 小 ) 。 

vscode 的 应 用 商店 (https:Wmarketplace.visualstudio.com/) 提供 了 许多 实用 的 插 


件 ， 可 以 按 需 选择 安装 ， 本 章 不 做 展开 。 
安装 完 这 3 个 播 件 ， 便 可 以 很 好 的 体验 编程 和 写作 的 乐趣 了 。 下 面 将 详细 介绍 
Markdown Preview Enhanced 这 个 插件 。 


2.3 MPE 使 用 的 必要 性 


Markdown Preview Enhanced 简称 MPE， 其 官方 提供 了 一 份 十 分 详细 的 中 文教 
程 : https:/shdl101wyy.github.io/markdown-preview-enhanced/ 帮 zh-cn/ 。 MPE 为 
Markdown 提供 了 许多 强大 的 功能 。 

看 到 这 里 ， 你 可 能 会 有 疑问 : Markdown? 本 书 是 关于 计算 机 视觉 的 书籍 ， 
Markdown 好 像 与 本 书 的 主题 无 关 ? 其 实 不 是 这 样 的。 想象 这 样 一 个 场景 : 有 一 天 
获得 了 一 份 关 于 计算 机 视觉 的 源 代 码 ， 你 想 要 对 该 源码 进行 重 构 让 其 适用 于 项 目 。 
奈何 该 源码 几乎 没有 提供 文档 说 明 ， 你 上 果 着 代码 傻 傻 分 不 清楚 那个 代码 是 “ 父 ”， 
那个 代码 是 “ 子 ”， 甚 至 你 想 要 正常 运行 某 个 程序 都 无 处 下 手 。 

是 不 是 很 可 怕 ? 这 种 场景 是 很 第 见 的 ， 并 不 是 特例 。 该 场景 说 明了 一 份 详细 的 
代码 说 明 对 后 期 的 代码 开发 和 维护 是 十 分 关键 的 。 

那 为 什么 一 定 要 是 Markdown， 不 能 是 .docx 等 其 他 格式 的 文档 对 代码 进行 说 
明 呢 ? 因为 Markdown 是 轻 量 型 的 文件 占用 空间 很 小 且 十 分 方便 Git〈 后 面 章节 再 
详细 介绍 ) 对 其 进行 管理 。 而 像 .docx 等 文件 格式 是 二 进 制 文件 ， 对 Git 并 不 友好 ， 
并 且 传 输 过 程 中 极 可 能 出 现 乱 码 的 情况 。 不 仅仅 如 此 Markdown 还 可 以 作为 您 代码 
的 笔记 进行 保存 和 分 享 。 下 面 我 将 详细 阐述 Markdown 是 如 何 做 文档 编辑 工作 的 。 


2.4 Markdown 使 用 手册 


下 面 我 挑选 几 个 比较 常用 的 功能 进行 介绍 。 


2.4.1 Markdown 基本 要 素 


二 八 定律 次 : 百 分 之 二 十 的 知识 解决 百 分 之 八 十 的 问题 。 本 文 将 Markdown 语 
法 分 为 常用 标记 ， 次 第 用 标记 和 不 常用 标记 。 如 果 您 想 学 习 和 使 用 Markdown， 本 
书 建议 : 

@ 第 用 标记 要 先 花 一 些 时间 熟 记 ， 后 面 经 常 使 用 的 话 也 会 慢 慢 形成 习惯 ， 

@ 次 常用 标记 要 有 基本 的 印象 ， 能 记 住 也 是 可 以 的 ; 

@ 不 第 用 标记 看 看 就 好 ， 等 到 使 用 的 时 候 再 百度 一 下 。 

markdown 是 html 的 一 个 子 集 ， 它 通过 在 文本 中 插入 标示 性 的 符号 来 构造 和 排 
版 文章 ， 其 源 文件 是 以 .md 为 后 缀 名 的 纯 文 本 格式 进行 保存 。 为 了 排版 的 可 读 性 考 
虑 ， 本 书 建 议 你 遵循 段落 前 后 为 空 行 的 设 定 。 


2.4.2 常用 标记 


芝 用 标记 要 先 花 一 些 时 间 熟 记 ， 后 面 经 常 使 用 的 话 就 会 形成 习惯 。 

1. 标 题 

使 用 # 表 示 标 题 ， 一 级 标题 使 用 一 个 #， 二 级 标题 使 用 两 个 替 ， 以 此 类 推 ， 共 有 
六 级 标题 。# 和 标题 之 间 最 好 加 一 个 空格 。 也 可 以 使 用 <hl> 标 题名 称 </hl> 的 形式 
定义 标题 ， 其 中 hl 表示 一 级 标题 ， 以 此 类 推 到 六 级 标题 。 有 具体 示例 如 下 : 

# 这 是 <h1> 一 级 标题 </h1> 

磁 这 是 <h2> 二 级 标题 </h2> 

震 # 这 是 <h3> 三 级 标题 </h3> 

寺 寺 这 是 <h4> 四 级 标题 </h4> 

夫 # 撒 # 这 是 <h5> 五 级 标题 </h5> 

检 # 寺 村 这 是 <h6> 六 级 标题 </h6> 

如 果 想 要 给 标题 添加 id 或 者 class， 请 在 标题 最 后 添加 { 相 d .classl .class2}。 例 
如 : 

# 这 个 标题 拥有 1 个 id {f#my 这 

# 这 个 标题 有 2 个 classes {.class1 .class2] 

2. 目 录 

将 [TOC] 放 在 一 级 标题 的 前 面 可 用 于 生成 目录 。 如 果 你 想 要 在 你 的 TOC 中 排除 
一 个 标题 ， 请 在 你 的 标题 后 面 添加 {fignore=true} 即 可 。 

3. 引 用 

使 用 > 表示 引用 ，>> 表 示 引 用 里 面 再 套 一 层 引 用 ， 依 次 类 推 。 

例 1， 引 用 示例 : 

> 这 是 一 级 引用 

>> 这 是 二 级 引用 

>>> 这 是 三 级 引用 

> 

> 这 是 一 级 引用 

效果 : 

这 是 一 级 引用 > 这 是 二 级 引用 >> 这 是 三 级 引用 


这 是 一 级 引用 

注意 : 如 果 > 和 >> 肯 套 使 用 的 话 ， 从 2> 退 到 > 时 ， 必 须 之 间 要 加 一 个 空 行 或 者 > 
作为 过 渡 ， 否 则 默认 为 下 一 行 和 上 一 行 是 同一 级 别 的 引用 。 如 示例 所 示 。 引 用 标记 
里 可 以 使 用 其 他 标记 ， 如 : 有 序列 表 或 无 序列 表 标 记 ， 代 码 标 记 等 。 

4. 代 码 块 

使 用 表示 代码 块 。( 要 与 您 的 文档 上 行文 字 之 间 空 一 行 ) 

例 2， 展 示 Python 代码 块 的 写法 ; 

python 

a=range(10) 

foriin al: 

print(i) 


注意 : ” 这 个 符号 是 在 Esc 键 下 面 ， 切 换 到 英文 下 即 可 。 ”后面 的 


“python 表示 此 段 代码 为 python 代码 ，Markdown 会 自行 使 用 python 代码 颜色 
了 


人 理 宁 。 
使 用 ` 表示 行内 代码 。 比 如 : 
这 是 `\javascript 代码 
如 果 你 想 要 你 的 代码 块 可 以 显示 代码 的 行 数 ， 只 要 添加 `line-numbers clasS` 就 可 
以 了 。 比 如 : 
”python {.line-numbers} 
A=1 
B=2 
C=A+B 


显示 的 效果 如 图 2.3 所 示 。 


人 
2 
A+ B 


图 2.3 代码 显示 行 数 


S. 列 表 
使 用 `1. 2. 3、 表 示 有 序列 表 ， 使 用 ` 关 、`” 或 、+ 表示 无 序列 表 。 下 面 举 例 说 
明 。 

例 3， 有 序列 表 代 码 示例 : 

1 第 二 点 

2. 第 二 点 

4. 第 三 点 

例 4， 无 序列 表 代 码 示 例 

+ 了 呵呵 

旺 训 这 

- 喷 喷 

- 吼 吼 
- 嘎嘎 
量 续 续 

< 险 险 

注意 : 

@ 无 序列 表 或 有 序列 表 标 记 和 后 面 的 文字 之 间 要 有 一 个 空格 隔 开 。 

@ 有 序列 表 标 记 不 是 按照 你 写 的 数字 进行 显示 的 ， 而 是 根据 当前 有 序列 表 标 
记 所 在 位 置 显 示 的 ， 如 示例 3 所 示 。 

@ 无 序列 表 的 项 目 符号 是 按照 实心 圆 、 空 心 圆 、 实 心 方 格 的 层级 关系 递 进 的 ， 
如 例 4 所 示 。 通 常情 况 下 ， 同 一 层级 使 用 同一 种 标记 表示 (和 否则 ， 显 示 效 
果 不 佳 ) ， 便 于 自己 查看 和 管理 。 

6. 粗 体 和 斜体 

@ 使 用 ** 或 者 _( 双 下 划 线 ) 表 示 粗 体 。 

@ 使 用 * 或 者 _ 表 示 斜 体 。 

下 面 看 几 个 示例 。 


例 5: 


“ 粗 体 1 粗 体 2 


“斜体 1 斜体 2_ 
效果 : 
粗 体 工 粗 体 2 


咎 人 拟 1 站 拟 2 


注意 : 前 后 的 # 或 .与 要 加 粗 或 倾斜 的 字体 之 间 不 能 有 空格 。 


7. 表 格 


下 面 的 - 的 个 数 可 以 为 任意 大 于 ] 的 数 。 


:为 居中 对 齐 。 


人 与 
例 6， 列 表示 例 : 


| 序号 | 交易 名 | 交易 说 明 | 备注 | 


` 之 间 不 要 有 空格 ， 人 否则 对 齐 会 有 些 不 兼容 


11lprfcfg| 菜 单 配置 | 可 以 通过 此 交易 查询 到 所 有 交易 码 和 菜单 的 对 应 关系 | 


|2lgentmol 编 译 所 有 交易 | 
1100000lsysdbal 数 据 库 表 模 型 汇总 | 
效果 如 表 2.1 所 示 。 
表 2.1 列表 示意 图 
序号 | 交易 名 交易 说 明 备注 
1 prfcfg 荣 单 配置 可 以 通过 此 交易 查询 到 所 有 交易 码 和 沫 单 
的 对 应 关系 
沁 gentmo 编译 所 有 交易 
100000 | sysdba | 数据 库 表 模 型 汇 
拘 


4DN 


8. 分 割 线 
使 用 --- 或 者 ##*# 或 
例 7: 


者 * * * 表 示 水 平分 割 线 。 


注意 : 

@ 只 要 # 或 者 -大 于 等 于 三 个 就 可 组 成 一 条 平行 线 。 

@ 使 用 --- 作 为 水 平分 割 线 时 ， 要 在 它 的 前 后 都 空 一 行 ， 防 止 一 -被 当成 标题 

标记 的 表示 方式 。 

9. 链 接 

使 用 [D]Uink "Optional tite") 表 示 行 内 链接 。 其 中 : 口内 的 内 容 为 要 添加 链接 的 文 
字 。link 为 链接 地 址 。Optional title 为 显示 标题 。 显 示 效 果 为 在 你 将 鼠标 放 到 链接 
上 后 ， 会 显示 一 个 小 框 提示 ， 提 示 的 内 容 就 是 Optional title 里 的 内 容 。 

例 8， 行 内 链接 ; 

这 就 是 我 们 常用 的 地 址 : [ 简 书 ](http/www-.jianshu.com " 简 书 风 

效果 : 

这 就 是 我 们 常用 的 地 址 ; 简 书 

例 9， 参 考 式 链接 : 

这 就 是 我 们 常用 的 地 址 : [Baiduli] 

[人 :www.baidu.com "百度 一 下 ， 你 就 知道 " 

注意 : 参考 式 链接 和 行内 链接 的 显示 效果 是 一 样 的 ， 但 是 在 编辑 状态 下 的 使 用 
情况 不 一 样 。 行 内 连接 紧 跟 链接 文字 ， 可 以 在 看 到 链接 文字 的 同时 清楚 的 知道 链接 
地 址 ， 但 是 不 便于 多 次 重复 利用 。 参 考 式 链接 可 以 重复 使 用 ， 但 一 般 都 是 将 一 些 链 
接 放 在 一 起 统一 管理 ， 如 一 段 文 字 后 面 或 文章 结尾 ， 因 此 在 找到 链接 和 链接 文字 的 
对 应 关系 上 有 些 麻烦 。 

10. 导 入 图 片 

我 们 使 用 ![Alt textlpath/toimg.jpg Optional title) 的 方式 导入 图 片 。 其 中 : Alt 
text 为 如 果 图 片 无 法 显示 时 显示 的 文字 ; /pathyto/img.jpg 为 图 片 所 在 路 径 ，Optional 
title 为 显示 标题 。 显 示 效 果 为 在 你 将 鼠标 放 到 图 片上 后 ， 会 显示 一 个 小 框 提示 ， 提 
示 的 内 容 就 是 Optional title 里 的 内 容 。 导 入 的 图 片 路 径 可 以 使 用 绝对 路 径 也 可 以 使 
用 相对 路 径 ， 建 议 使 用 相对 路 径 。 

11. 反 斜 杠 

使 用 \ 表 示 反 斜 本 。 在 你 不 想 显示 Markdown 标记 时 可 以 使 用 反 斜 杠 。 

例 11: 

愉 这 里 不 会 显示 斜体 必 

效果 : 

* 这 里 不 会 显示 斜体 * 


2.4.3 次 常用 标记 


次 常用 标记 要 有 基本 的 印象 ， 能 记 住 也 是 可 以 的 。 

1. 注 脚 

在 需要 添加 注脚 的 文字 后 加 上 脚注 名 字 [^ 注 脚 名 字 ] 被 称 为 加 注 ， 然 后 在 文本 的 
任意 位 置 (一 般 在 最 后 ) 添 加 脚注 ， 脚 注 前 必须 有 对 应 的 脚注 名 字 。 

注意 : 经 测试 注脚 与 注 靶 之 间 必 须 空 一行 ， 不 然 会 失效 。 成 功 后 会 发 现 ， 即 使 
你 没有 把 注脚 写 在 文 末 ， 经 Markdown 转换 后 ， 也 会 自动 归 类 到 文章 的 最 后 。 

下 面 来 看 一 个 例子 ; 


使 用 Markdown[^1] 可 以 效率 的 书写 文档 , 直接 转换 成 HTML[^2], 你 可 以 使 用 Leanote[^Le] 编辑 器 进行 


书写 。 
[^1]: Markdown 是 一 种 纯 文 本 标记 语言 (冒号 与 文字 之 间 需 要 有 空格 ) 


[^2]: HyperText, 超 文本 标记 语言 
[^Le]: 开源 笔记 平台 ， 支 持 Markdown 和 笔记 直接 发 为 博文 


2. 删 除 线 

使 用 ~~ 表 示 删 除 线 ， 示 例如 下 : 

> 这 是 一 条 删除 线 ~~ 

效果 : 

这 是 一 条 删除 线 

注意 : “ 和 要 添加 删除 线 的 文字 之 间 不 能 有 空格 。 
3. 缩 略 
比如 如 下 的 写法 : 
#[N3C]: Wai Wide Web Consortiun 
再 次 出 现 W3C， 当 鼠标 巧 停 会 显示 其 全 称 。 


2.4.4 不 常用 标记 


不 第 用 标记 看 看 就 好 ， 等 到 使 用 的 时 候 再 百度 一 下 。 

1. 自 动 链接 

Markdown 支持 以 比较 简短 的 自动 链接 形式 来 处 理 网 址 和 电子 邮件 信箱 ， 只 要 
是 用 <> 包 起 来 ，Markdown 就 会 自动 把 它 转 成 链接 。 一 般 网 址 的 链接 文字 就 和 链接 
地 址 一 样 ， 例 如 : 

<http:/example.com/> 

<address@example.com> 

效果 : 


http://example.comy/ 


addressQ@example.com 


引用 存储 文件 形式 为 [example](.../.../example.md)。 
2. 语 义 标记 与 标签 
有 时 候 我 们 也 需要 去 设置 一 些 特殊 的 符号 ， 下 面 的 语义 标记 与 标签 可 能 会 帮 有 到 
你 。 在 表 2.2 记录 了 一 些 斜 体 ， 加 粗 等 标记 ， 而 表 2.3 记录 了 上 下 标 等 标记 方法 。 

除了 表 2.2 和 表 2.3 列 出 的 特殊 标记 之 外 ， 也 可 以 使 用 ^ 和 ~ 标记 上 下 标 ， 比 
如 LATEX 这 样 的 符号 ， 也 可 以 这 样 输入 LAA4AT~E~X。 也 可 以 组 合 各 种 标记 ， 比 
如 LATEX 便 是 由 *LAAAT~E~X# 组 合 得 到 的 效果 ， 有 具有 示例 如 表 2.4 所 示 。 

表 2.2 语义 标记 


效果 代码 

税 拟 * 位 体 * 
税 拟 _ 和 斜体 _ 
加 粒 # 加 粗 科 


加 构 : 壮 打 | 。。 加 粗 + 侍 体 * 
加 逆 ! 壮 打 |  。。 沁 加 租 + 侍 体 党 
删除 线 ~~ 出 除 线 ~ 


表 2.3 语义 标签 


效 
果 代码 
箭 <i> 斜 体 </i> 
所 
加 <b> 加 粗 </b> 
粗 
量 <em> 强 调 </em> 
调 
Za Z<Sup>a</Sup> 
Za Z<Sub>a</Ssub> 
Ctrl <kbdq>Ctrl</kbd> 
表 2.4 另类 的 上 下 标 
符号 说 明 示例 
人 人 上 标 猫 有 
3 下 标 独 关 


2.5 公式 使 用 参考 


如 果 代 码 量 很 大 ， 足 够 组 成 一 个 项 目 ， 而 该 项 目 有 涉及 到 许多 数学 公式 ， 那 么 ， 
需要 学 习 如 何 使 用 Markdown 编写 数学 公式 。 


2.5.1 如 何 插入 公式 


@ 行 中 公式 ( 放 在 文中 与 其 它 文 字 混 编 ) 可 以 用 如 下 方法 表示 : $ 数 学 公式 $ 
@ 独立 公式 可 以 用 如 下 方法 表示 : $$ 数 学 公式 $$ 


行内 公式 示例 : 

$ 

J_valpha(x) = sum {m=0Ainfty YYrac{(-1)Amm!L Gamma (Im + apha + 1)) 
fNeft({ \rac{xj{f2} }right)}A2m + Nalphal Next{， 行 内 公式 示例 } 

$ 


显示 : 


要 (= 了 到 万 27 十 JE 人 汪汪 
Je) 二 0 ， 行 内 公式 示例 。 

独立 公式 示例 : 

4 

J valpha0x) = sum {m=0jAinfty racf(Ct)mHm! Gamma 人 (m 
feft(f rac{x{2] }Night)}A 人 2m + \alphal Next {， 独 立 公 式 示例 } 

4 

显示 : 


凡 CD = 28 -0 二 9D97 (区 “”， 独 立 公 式 示例 。 


TI 六 (7 十 X 二 1) 2 


+ nalpha + 1)) 


2.5.2 如 何 输入 公式 的 上 下 标 


^ 表 示 上 标 ，_ 表示 下 标 。 如 果 上 下 标的 内 容 多 于 一 个 字符 ， 需 要 用 {} 将 这 些 内 
容 括 成 一 个 整体 。 上 下 标 可 以 嵌 套 ， 也 可 以 同时 使 用 ， 效 果 如 图 2.4 所 示 。 


- 下 崩 健 ， 也 时 使 用 于: 到 x^{y^zj=(1+\Vtext{fej^x)^f-2xy^w}55 


和 玉 三 (1 上 + 
\sidese 
色 8 妈 
人 志 色 \sidesetf 1_2f 3 4}\bigotimes5 
民 1 .2jfe3 4]}\bigotimes 多 @， 
[和 。 2.2.3 如 何 输入 括号 和 分 隔 符 


图 2.4 上 下 标 使 用 展示 


2.5.3 如 何 输入 括号 和 分 隔 符 


0、D 和 | 表示 符号 本 喘 ， 使 用 \f\} 来 表示 {}。 当 要 显示 大 号 的 括号 或 分 隔 符 时 ， 
要 用 Neft 和 \ight 命令 。 一 些 特殊 的 括号 ， 如 表 2.4 所 示 。 


表 2.4 各 种 括号 的 表达 


输入 显示 
$$Nlangle 表达 式 ( 志 妇 却 ) 
N\rangle$$ 


$$Nlceil 表达 式 \rceil$$ | [ 南 必 元 | 


$$Nlfloor 表达 式 [ 献 女 元 | 
N\rfloor9$$ 


$$Nlbrace 表达 式 { 南 女友 
Nrbrace$y$ 


再 看 一 个 例子 : $$ff(xyz] = 3y^2z \left( 3+N\frac{7x+5}{1+y^A2} \rightb$y 
显示 : 


7X 十 5 
FFC(x 多 Z) = 3y2z (s 十 


2.5.4 如 何 输入 分 数 


通常 使 用 \frac { 分 子 } { 分 母 } 命 令 产 生 一 个 分 数 ， 分 数 可 能 答 。 便 
接 输 入 \frac ab 个 ab。 如 果 分 式 很 复杂 ， 亦 可 使 用 分 邓 分 导 命令 ， 
此 时 分 数 仅 有 一 层 ， 只 体 实例 如 图 2.5 所 示 。 


， 王 
》 训 
> 


井 七 es 七 
“多 \fracfa-1j{fb-1} \; Ntext{fand} \; {a+l\over b+1} 人 


test 


到 
2 

3 

级 

5 显示: 
6 

7 

8 

9 


到 

营 和 \f -1}{b-1} \; \text{fand}y \; {a+l\ b+1}$$ 
N\frac{fa-1j{b-1} \; \text{and}j \; {a+l\over b+1} 人 } nd AN 
人 


19 | 


图 2.5 输入 分 数 的 实例 
2.5.5 如 何 输入 开 方 
使 用 \sqrt [根据 数 ， 省 略 时 为 2] { 被 开 方 数 } 命令 输入 开 方 。 比 如 $$\sqrt{2】} 
\quad and \quad \sdqrt[n]{3}$$ 显示 为 : 
V2 _ and 人 3 
2.5.6 如 何 输入 省 略 号 


数学 公式 中 常见 的 省 略 号 有 两 种 ， 表 示 与 文本 底线 对 齐 的 省 略 号 ， 表 示 与 文本 
中 线 对 齐 的 省 略 号 ， 实 例如 图 2.6 所 示 。 


# 如 何 输入 省 略 号 


数学 公式 中 常见 的 省 略 号 有 两 种 ，\1dots 表示 与 文本 底线 对 齐 的 省 略 号 ， 


\cdots 表示 与 文本 中 线 对 齐 的 省 略 号 - 加 人 可 输入 省 旦 号 


例子 : 
数学 公式 中 常见 的 省 略 号 有 两 种 ，\ldots 表示 与 文本 底线 对 齐 的 省 略 号 ， 
gf(x_ 1,x_2,\underbrace{f\ldots} {Nrm ldots} ,x_n) = x_ 1^2 + 本 Re 
X_2^2 + Nunderbracef\cdots}_ {Nrm cdots} + x_n^2g$ \cdots 表示 与 文本 中 线 对 齐 的 省 略 号 。 
1 显示 : 届 例子 : 
1 
到 gf(x_1,x_2,\underbrace{f\ldots}_{NVrm ldots}y ,x_n) = x_1^2 + xX_2^2 + 


f(x_1,Xx_2,\underbrace{f\ldots} {Nrm ldots} ,x_n) = X_1^2 + 
X_2^2 + \underbrace{f\cdots} {Nrm cdots} + x_n^2 
到 


Nunderbracef\cdots}_ {N\rm cdots} + x_n^2$9$ 


2 ， 2 2 
zz nzm) 一 ZI1 十 Z2 十 < 二 十 Zn 
ldots cdots 


图 2.6 如 何 输入 省 略 号 


2.5.7 如 何 输入 矢量 


使 用 \vec{ 矢 量 } 来 自动 产生 一 个 矢量 。 也 可 以 使 用 \overrightarrow 等 命令 自 定 
义 字母 上 方 的 符号 。 

例子 ; 

$9$\vecfal \cdot \vec{fb}=09$ 

显示 : 


SJ 
SS 
册 
局 


例子 : 
$$\overleftarrow{xy} \quad and \quad \overleftrightarrow{xy} \quad and \quad \overrightarrow{xy}$$ 
显示 ; 

Xy and xy amd 77 


2.5.8 如 何 输入 积分 
使 用 _ 积 分 下 限 ^ 积 分 上 限 { 被 积 表达 式 } 来 输入 一 个 积分 。 参 考 图 2.7 的 实例 ， 


# 如 何 和 输入 积分 


使 用 \int_ 积 分 下 限 ^ 积 分 上 限 《被 积 表达 式 } 来 输入 一 个 积分 。 


如 何 输入 积 4 


使 用 \int_ 积 分 下 限 ^ 积 分 上 限 { 被 积 表 达 式 } 来 输入 一 个 积分 。 


例子 : 
“和 \int_9^1 {x^2} \,{Nrm djxgg- 


下 
显示 : 


合 \int_@^1 {x^2}】 \,{Nrm djxg$ 例子 : 


Pa@ooowNwaommhphpwmhP 


名 \int_6^1 {x^2} \{Nrm djxg$ 


人 Z2 dz 
0 


图 2.7 积分 输入 


2.5.9 如 何 输入 极限 运算 


使 用 \lim_{ 变 量 \to 表达 式 } 表达 式 来 输入 一 个 极限 。 如 有 需求 ， 可 以 更 改 \to 
符号 至 任意 符号 。 


例子 : 
$$ Nim_{n Nto ANinfty} \racf1j{n(n+t) quad and \quad Nim_{xleftarrow{ 示 例 } racf1Mn(n+1)}$$ 
显示 : 


人 
2.5.10 如 何 输入 累加 、 累 乘 运算 


使 用 \sum_{ 下 标 表 达 式 }A{ 上 标 表 达 式 } { 累 加 表达 式 } 来 输入 一 个 累加 。 与 之 
类 似 ， 使 用 \prod \bigcup \bigcap 来 分 别 输入 累 乘 、 并 集 和 交集 。 此 类 符号 在 行内 
显示 时 上 下 标 表 达 式 将 会 移 至 右上 角 和 右 下 角 。 

例子 : 

$q\sum {i=1)jn racf1Hie2}) quad and \quad prod fi=1)An racf1ii 和 2 quad and quad 

\bigcup_{fi=1}^{2) RS$$ 

显示 : 


令 也 

1 1 
>》 瑟 QQ | 到 QQ [Un 
这 1 i=1L 


2.5.11 如 何 输入 希腊 字母 


输入 \ 小 写 希腊 字母 英文 全 称 和 \ 首 字母 大 写 希 腊 字 母 英文 全 称 来 分 别 输入 小 写 
和 大 写 希 腊 字母 。 

对 于 大 写 希 腊 字母 与 现 有 字母 相同 的 ， 直 接 输入 大 写字 母 即 可 ， 和 希腊 字母 一 览 
表 如 表 2.5 所 示 。 


表 2.5 希腊 字母 一 览 表 


输入 显示 输入 显示 

$Nalphay C $Ay 4 
$\betay $B$ 妃 
$\gammay 》 $\Gammay 也 
$N\deltay 和 $NDeltay 4 
$\epsilony E $E$ 己 
$N\zetay C $Z$ 了 
$\etay 7 $Hy$ 万 
$Nthetay 0 $NThetay 9 
$Niotay / $I$ 了 
$Nkappay K $K$ 开 
$NMlambday 4 $\Lambday 4 


$N\nuy V $N$ N 
$\muy 凡 $M$ M 
$\X $NXi 如 
$oy 0 $0$ O 
$\p 示 元 $NPi 玖 
$N\rhoy $P$ 己 
$Nsigmay$ CO $N\Sigmay$ 书 
$Ntauy$ 工 $T$ 人 
$Nupsilony$ U $N\Upsilony 】 
$Nphi 中 $NPhiy 中 
$Nchiy 万 $X$ 胡 
$Nps 示 业 $NPs 示 凤 
$Nomegay OU $NOmegay$ 位 


2.5.12 大 括号 和 行 标 的 使 用 


使 用 ”Neff 和 "right 来 创建 自动 匹配 高 度 的 ( 圆 括号 )，[ 方 括号 ] 和 { 花 括号 }。 在 
每 个 公式 末尾 前 使 用 `\tag{ 行 标 二 来 实现 行 标的 设 定 。 下 面 来 看 一 个 例子 : 
$$ 
feft( 
NIeft[ 
Yrac{ 
1+\leftMx,yrighty 
共 
NIeft( 
Yrac{x}j{y}+rac{y}{X} 
right) 
MIeft(u+1Nright) 
}+a 
vightil^(3/2} 
\right) 
\tagf{ 行 标 } 
$$ 
显示 如 岁 2.8 所 示 。 


图 2.8 大 括号 和 行 标的 使 


小 技巧 ， 如 图 2.9 所 示 。 


1. $\smash{f\displaystyle\max_ {8@ \leq qg \leq n-1}} f(q) \le ng 电 示 : 
max 帮 (9) 芝 忆 
2. 人 ea Napprox f(x) + f"(x) \epsilon + Nmathcal{O} 
ES 吕 示 : fc 十 e) = ffz) 十 户 (c)je 上 二 Ofe). 
3. 求 导 符号 使 用 失 text{fdjxs , 即 : dz 


图 2.9 使 用 小 技巧 


2.5.13 字体 转换 


知 要 对 公式 的 某 一 部 分 字符 进行 字体 转换 ， 可 以 用 | 
命令 ， 其 中 \ 字 体 部 分 可 以 参照 下 表 选 择 合适 的 字体 。 一 般 情况 下 ， 公 式 默 认 设 置 
为 意大利 体 ， 数 学 公式 字体 转换 ， 如 图 2.10 所 示 。 


输入 说 明 显示 实例 
Nrm 蕊 全 了 D 
Ncal 二 付 也 
Na 大 币 也 
\Bbb 且 板 粗 使 由 
\bf 粗 便 D 
Nmit 仁 是 
N\s 下 革 线 体 D 
\scr 手写 体 全 
NEE 打字 机 体 D 
\frak 有 旧 德 式 字 体 名 
\boldsymbol 黑体 囊 , 人 


图 2.10 数学 公式 字体 转换 


2.6 将 Markdown 转换 为 docx 文档 


在 2.4 与 2.5 了 解 了 Markdown 的 基本 使 用 ， 但 是 ， 如 果 想 要 将 其 分 享 给 一 个 不 
懂 Markdown 的 人 ， 他 们 也 没有 可 以 预览 Markdown 的 工具 ， 那 么 将 Markdown 转 
换 为 其 他 格式 的 文档 是 十 分 有 必要 的 。 

继续 往 下 读 ， 也 许 会 惊异 ， 转 换文 档 格式 尽 然 这 么 简单 ! 是 的 ，Markdown 搭 
配 上 Pandoc 之 后 ， 文 档 的 转换 将 十 分 轻松 。 下 面 来 看 看 如 何 操作 。 本 章 仅 仅 介绍 
如 何 转换 为 docx 文档 。 

首先 需要 下 载 Windows 版 的 安装 包 Pandoc， 并 按照 提示 进行 安装 。 如 果 想 要 


更 好 的 支持 latex 数学 公式 ， 还 需要 安装 Tex Live。 安 装 完 Pandoc 之 后 ， 可 用 命令 
pandoc -v 查看 Pandoc 的 版 本 。 


如 何 需要 将 markdown 出 为 word， 那 么 ， 可 以 在 文章 的 开头 填 入 如 下 内 容 : 


title: 构建 属于 自己 的 项 目 
author: xinetzone 
date: 2019/10/17 
output: 
word _ document: 
highlight: "tango" 


其 中 Wisghlight 用 于 设置 代码 的 高 亮 的 主题 。 上 面 的 设置 便 可 以 输出 一 个 十 分 糯 
观 的 word 版 本 的 文档 。 如 图 2.11 所 示 ， 是 对 比 代码 高 学 与 个 高 亮 的 区 别 。 


第 2 步 : 将 远 人 本 本 本 下 国 作 获取 项 目的 远程 仓库 地 址 
netzol -actions.E 


人 这 罗 眼下 图 扣 作 获取 项 目的 远程 仓库 地 址 
or ons 


一 -~ 一 ~ ~ ERA = ~ 一 ~ ~ ERRN 
CA 人 
属 4 区 


第 3 步 : 在 本 地 电脑 端 打开 vscoye 并 在 终端 输入 : 


$ BEit clone https://BEithub.com/xinetzone/cv-actions.Eit 
多 cd cv-actions/ 


3 步 ， 在 本 地 电脑 端 打开 yscode 并 在 终端 给 入; 


多 Bit clone https://Bithub.com/xinetzone/cv-actions.Bgit 
多 cd cv-actions/ 


图 2.11 代码 高 亮 对 比 
图 2.11 的 左边 是 代码 没有 高 亮 的 ， 而 右边 是 代码 高 亮 的 。 两 者 的 优 劣 一 眼 便 可 
看 出 。 
为 了 获取 更 好 的 观感 体验 您 可 以 设置 高 亮 主题 为 zenburn， 效 果 图 见 图 2.12。 


好 了 ， 效 果 图 有 了 那么 具体 该 怎么 转换 呢 ? 看 看 图 2.13， 按 照 图 示 进 行 类 似 的 操作 
即 可 。 


第 2 步 : 将 远 端 的 项 目 克隆 到 本 地 。 首 先 ， 按 照 下 图 操作 获取 项 目的 远程 仓库 地 址 


(https://github.comy/xinetzone/cv-actions.git) : :， 


加 3 commit 记 1 h Oral 和 1 nent 址 1com 本 GF 
| oo RN 
酌 smeazone Update saApwE Clone with HTTPS 加 Use SSsH 
twit h 
和 gitignore 
UCENSE 
READMEmd pdate READMI 
Open in Desktop Open in Visual Studio 
configyml 
Downlead ZiP 
国 README md zz 和 


故 4 狂 克 远 相 个 斋 奶 如 ， 
第 3 步 : 在 本 地 电脑 端 打 开 yscgeqde 并 在 终端 输入 : ， 


$ git clone https:/V/github .com/xinetzone/Vcv-actions .gjt 


惠 cd cv-actionsy/ 


2.12 高 亮 主题 设置 为 zenburn 


图 2.13 pandoc 转换 为 docx 的 示意 图 


2.6.1 依据 给 定 的 模板 输出 word 文档 


有 时 ， 我 们 想 要 依据 给 定 的 模板 mystyles.docx 来 输出 word 文档 ， 可 以 这 样 设 
置 : 


title: 构建 属于 自己 的 项 目 
author: xinetzone 
date: 2019/10/17 
output: 
word_ document: 
highlight: "tango" 
reference_doc: mystyles.docx 


其 中 reference_doc 参数 指定 了 docx 模板 。 


2.6.2 设置 多 文件 生成 word 的 模板 


如 果 想 要 在 同一 个 文件 夹 下 的 markdown 文档 以 相同 的 模板 生成 word 文档 ， 可 
以 在 该 目录 下 设置 文件 _output.yaml 并 输入 模板 配置 ， 比 如 ; 
output: 
word_ document: 
highlight: "tango" 
这 样 ， 不 必 在 markdown 中 再 次 设置 上 述 参 数 ， 即 可 达到 设置 _output.yaml 中 参 
数 的 效果 。 


2.6.3 设置 自动 目录 


如 果 需 要 设置 自动 目录 ， 可 以 这 样 


title: 构建 属于 自己 的 项 目 

author: xinetzone 

date: 2019/10/17 

output: 

word _ document: 

highlight: zenburn 
reference_docx: mystyles.docx 
toc: true 
toc_depth: 2 


2.6.4 自动 导出 为 word 


如 果 不 想 每 次 都 在 预览 markdown 的 时 候 ， 手 动 生 成 word， 可 以 设置 
export_on_Ssave 自动 生成 word: 


output: word_document 


export_on_Ssave: 
pandoc: true 


2.7 导入 外 部 文件 


有 时 有 这 样 一 种 需求 ， 需 要 将 某 个 文件 的 内 容 导 入 到 另 一 个 文件 之 中 ， 省 去 复 
制 粘 贴 的 操作 。 可 以 使 用 如 下 语法 : @import "你 的 文件 " 或 者 <!-- @import 
"your_file"”--> 
导入 的 外 部 文件 支持 如 下 的 类 型 : 
@ .jpeg(.jpg), .gif, .png, .apng, .svg, .bmp 文件 将 会 直接 被 当 作 markdown 图 片 
被 引用 。 
.csy 文件 将 会 被 转换 成 markdown 表格 。 
.mermaid 将 会 被 mermaid 泻 染 。 
.dot 文件 将 会 被 viz.js (graphviz) 泻 染 。 
.plantuml(.puml) 文件 将 会 被 PlantUML 演 染 。 
.html 将 会 直接 被 引入 。 
.js 将 会 被 引用 为 <script src=" 你 的 js 文件 "></script> 。 
.less 和 .css 将 会 被 引用 为 style。 目 前 less 只 支持 本 地 文件 。.css 文件 将 会 
被 引用 为 。 
@ .pdf 文件 将 会 被 pdf2svg 转换 为 svg 然后 被 引用 。 
@ markdown 将 会 被 分 析 处 理 然 后 被 引用 。 
@ 其 他 所 有 的 文件 都 将 被 视 为 代码 块 。 
导入 图 片 的 示例 ; 


@import "test.png" {width="300px" height="200px" title=" 图 片 的 标题 " alt=" 我 的 alt" 


引用 文件 作为 Code Chunk〈 下 一 章 会 介绍 ) 的 示例 ; 
Qimport "test.py" {cmd="python3", class='"line-numbers')} 
将 外 部 文件 作为 代码 块 : 
@import "test.json'" {fas="vegarlite 
当然 可 以 插入 Markdown， 这 样 很 有 意思 。 除 了 把 多 个 小 文档 合并 成 一 个 大 文 
档 这 种 无 脑 的 用 法 之 外 ， 我 觉得 最 有 潜力 的 用 法 是 一 一 非 线性 写作 啊 ! 
如 果 把 一 些小 文件 当 作 卡 片 的 话 ， 善 用 导入 文件 功能 就 可 以 实现 文章 分 块 化 管 


个 


理 


2.8 其 他 有 趣 的 功能 


vscode 的 MPE 插件 还 提供 了 许多 有 趣 的 功能 。 下 面 挑选 儿 个 实用 的 让 大 家 研 


九 。 


2.8.1 导入 目录 


在 vscode 中 ， 只 需要 在 需要 生成 目录 的 地 方 放 入 [TOC] 便 会 自动 生成 目录 。 
对 于 [TOC] 不 生效 的 情况 ， 可 以 使 用 <!-- @import "[TOC]" {cmd='"toc" depthFrom=2 
depthTo=3 orderedList=false} --> 代替 其 自动 生成 目录 。 


2.8.2 使 用 表情 符号 与 Front Icon 


参考 : GitHub Help : Emoji (https:/Whelp.github.com/cn/github/writing-on- 
github/basic-writing-and-formatting-syntax#content-attachments) 。 

通过 键入 :EMOJICODE: 可 在 写作 中 添加 表情 符号 ， 效 果 如 图 2.14 所 示 。 

@octocat :+1: 这 个 PR 看 起 来 很 棒 - 可 以 合并 了 ! :shipit: 


侣 Octocat - 吉 This PR IookKs 日 reat - 此 Sready to mergel 全 


图 2.14 泻 染 的 表情 符号 

键入 :将 显示 建议 的 表情 符号 列表 。 列 表 将 在 你 键入 时 进行 过 滤 ， 因 此 一 旦 找 

到 所 需 表 情 符号 ， 按 Tab 或 Enter 键 以 填写 选中 的 结 

有 关 可 用 表情 符号 和 代码 的 完整 列表 ， 请 查看 emoji-cheat-sheet.com (emoji- 

cheatrsheetcom  )  。 您 也 可 以 参考 Font 。” Awesome 
(Chttps:/fontawesome.cormyicons?d=gallery) 设置 Front Icon 。 


2.8.3 画图 


MPE 提供 了 许多 画 几 的 工具 ， 本 节 仅 展示 Mermaid 的 画图 效果 ， 如 网 2.15 所 
示 。 更 多 与 Mermaid 相关 的 使 用 语法 ， 可 以 例 我 的 博文 Mermaid 学 习 〈Mermaid 


学 习 ) 。 


更 多 与 画图 相关 的 内 容 可 以 参阅 MPE 的 图 像 部 分 。 


图 2.15 mermaid 画 类 轿 


2.8.4 任务 列表 
可 以 使 用 `-[]】` 表示 未 完成 的 任务 ， 而 `- [ 直 ` 表示 已 经 完成 的 任务 ， 如 图 2.16 


所 示 。 
糙 # 2.8.5 任务 列表 目 
和 2.8.5 任务 列表 
- [x] 已 完成 
未 完成 
四 已 完成 


2.16 任务 列表 预览 
2.9 本 章 小 结 
本 章 先 介绍 了 vscode 的 一 些 基本 用 法 ， 然 后 着 重 介绍 MPE 插件 的 使 用 。 昌 然 ， 


介绍 的 重点 是 Markdown， 而 没有 直接 涉及 到 计算 机 视觉 相关 内 容 ， 但 是 ， 本 


本 章 
章 也 是 很 重要 的 ， 它 为 我 们 提供 了 一 份 详尽 的 用 于 编写 代码 的 说 明文 档 的 工具 。 


第 3 章 Python 的 基础 入 门 


在 前 两 章 已 经 介绍 了 计算 机 视觉 的 环境 搭建 以 及 代码 的 文档 编辑 器 vscode。 从 本 章 开始 我 


们 将 利用 Python 逐步 揭 开 计算 机 视觉 的 神秘 面纱 。 因 为 本 书 是 以 Python 作为 编程 语言 的 ， 所 
以 我 们 需要 先 了 解 Python， 之 后 再 利用 Python 进行 计算 机 视觉 的 操作 。 前 面 的 两 章 可 以 看 作 
是 进入 计算 机 视觉 世界 的 准备 工作 ， 从 本 章 开 始 才 真正 进入 计算 机 视觉 的 世界 。 本 章 也 可 以 看 
作 是 一 个 先导 章节 ， 主 要 介绍 Python 的 基本 数据 类 型 。 

注意 : 本 章 介 绍 的 Python 是 Python3.7 版 本 的 语法 ， 本 书 不 是 专业 介绍 Python 的 ， 仅 仅 
展示 一 些 在 计算 机 视觉 中 可 能 会 用 到 的 知识 点 


T 


3.1 编写 和 运行 代码 


名 词 解释 : 
@ 程 序 ， 使 用 精确 的 形式 和 语义 ， 让 计算 机 实现 某 项 特定 功能 的 软件 。 
@ 终 端 : 接收 用 户 输入 的 命令 〈《 有 固定 的 语法 的 语句 ) ， 然 后 让 计算 机 做 出 相应 
的 操作 的 一 个 平台 。vscode 日 
下 面 以 一 个 实例 作为 Python 的 开篇 ， 您 不 需要 想 该 例子 的 具体 细节 ， 只 需要 了 解 Python 
的 大 体 运 行 方式 即 可 。 设 计 一 个 计算 器 用 了 计算 商 品 的 价格 。 即 总 价 = 单价 x 数量。/ 
Python 可 以 这 样 设计 : 
首先 ， 创 建 一 个 名 为 商品 价格 计算 .py 的 文件 并 写 入 如 下 内 容 : 
# 商品 价格 计算 .py 
# 这 个 程序 可 以 用 来 计算 商品 的 总 价 。 
# by: xinetzone 
def 商品 总 价 (): 
单价 , 数量 = eval(input( "请 请 使 用 喜 号 隔 开 您 想 要 计算 的 商品 的 单价 与 数量 : Wn)) 
return 单价 * 数量 
# 调用 函数 
窗 品 总 价 () 
接着 ， 您 需要 使 用 终端 打开 商品 价格 计算 .py， 具 体操 作 兄 如 图 3.1 所 示 。 


0 


口 Freview 3.0ma 5 ， 1。 创建 一 个 名 为 “商品 价格 计 鼻 
Y CVSOME (工作 区 ) 6 
> 图 casia 子 和 “py 
>》 荔 coco 8__## 硝 皮 从 站 矿 借 .Dv 
>》 条 datasome New C# Class 
Y 匡 docs New C# Interface 
ee 各 Run Code Ctrl+Alt+N 
my first | 你 
|。 在岗 边 打开 Ctrls1 。 下 输 入 您 
>》 略 | test 号 
{]} _outputy 在 资源 管理 器 中 显示 Shift+Alt+R 生 
ne 31md -er -和 一 -一 
音 
第 3 齐 .do! 。 选择 以 进行 比较 
M+ 第 3 章 .md 
品 价格 | ”前 切 Ctrl+X 
过 aipynb 复制 Ctrl+C 
Semodof 。 复制 路 径 Shift+Alt+C 
M4 Vscode.ml 
复制 相对 路 径 Ctrl+K Ctrl+Shift+C 
{]} _outputyal 
demo.docx 重 命 名 F2 
testdocx 删除 Backspace 
M4+ testmd 
> 入 draft 导出 Markdown 到 文件 
>》 希 loader 调试 所 有 单元 测试 
>》 荔 omniglot 运行 所 有 单元 测试 


图 3.1 使 用 终端 打开 商品 价格 计算 .py 
最 后 ， 在 终端 输入 : python 商品 价格 计算 .py， 即 可 计算 商 品 价 格 ， 如 图 3.2 所 示 。 


由 Tbash 人 jjE 二 加 会 人 


XzBXinet MINGW54 :Rd (master) 
$ python 商品 价格 计算 .py 
清 请 使 月 运 号 阳 开 俩 引 且 如 站 的 9 商品 的 单价 与 数量 : 


XzBXinet MINGW64 /e/cvsome/datasetsome/docs/draft (master) 
p 

请 请 使 月 逼 

27，86 

商品 总 价 是 : 2322 


算 的 商品 的 单价 与 数量 


[as MINGW64 /e/cvsome/datasetsome/docs/draft (master) 
多 


图 3.2 运行 程序 


从 图 3.2 可 以 看 出 ， 只 需要 输入 python 商品 价格 计算 .py 命令 ， 那 么 立马 终端 便 可 以 计算 
商品 的 总 价 了 。 这 里 是 直接 在 vscode 启动 终端 来 运行 程序 的 一 种 方式 〈 一 般 被 称 为 命令 行 形 
式 ) 。 下 面 介绍 一 个 更 加 强大 的 方式 使 用 Jupyter Notebook 运行 程序 。 

首先 ， 需 要 打开 PowerShell〈 也 是 终端 的 一 种 ) ， 如 图 3.3 所 示 。 


> 和 LSCi 主 全 5CUD) 


oOCD) 


二 


图 3.3 打开 Windows 系统 的 PowerShell 


然后 ， 您 在 终端 键入 D: 将 PowerShell 切换 到 磁盘 D 之 下 ， 最 后 输入 命令 jupyter notebook 
便 可 以 启动 Jpyter Notebook 程序 ， 如 图 3.4 所 示 。 


Windows PowerShel1 


所 有 (C) Microsoft Corporation。 保 留 所 有 权利 。 
尝试 新 的 跨 平 台 PowerShe11 https://aka. ms/pscore6 


PS C:\Users\xz>》D: 
PS D:\》 jupyter notebook 
16:29:53. 620 NotebookApp] The port 8888 is already in use，trying another port. 
:29:53. 621 NotebookApp] The port 8889 is already in use，trying another port. 
:53. 764 NotebookApp] [jupyter_nbextensions_configurator] enabled 0.4.1 
3. 852 NotebookApp] JupyterLab extension loaded from C:\ProgramData\NAnaconda3\1lib\site-packages\jupyterlab 
3. 852 NotebookApp] JupyterLab application directory is C:\ProgramData\Anaconda3\share\jupyter\lab 
3. 855 NotebookApp] Serving notebooks from local directory: D:\ 
:29:53. 855 NotebookApp] The Jupyter Notebook is running at: 
16:29:53. 856 NotebookApp] http://1localhost:8890/ 
16:29:53. 856 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation) . 


图 3.4 打开 Jupyter Notebook 


在 Python 中 文件 python 商品 价格 计算 .py 一 般 被 称 为 模块 ， 一 个 可 以 反复 使 用 的 程序 文件 。 
打开 的 Jupyter Notebook 的 界面 内 可 以 像 图 3.5 那样 操作 。 


) | localhost'8689/notebooks/Untitled,ipynb?kernel_ name=python3 


们 
R 时 hep 凰 歼 得 峡 我 的 字 习 辆 深度 字 习 凰 文献 图 资源 站 瑟 数学 知识 三 Tensorflow & keras 国 论文 模板 
二 Jupyter Untitled Last checkpoint 18 dd 前 (unsaved changes) 


File Edit View 1 Cell Kernel Widoets Help 


四 | 二 2 区 个 | 业 HRun 国 C 种 | code 


商品 价格 计算 .py 
这 个 程序 可 以 用 来 计算 商品 的 总 价 。 


*， by: xinetzone 


In [] def 商品 总 价 (0) ， 
单价 ， 数 最 


eval (input (“ 请 请 使 用 逗号 隔 开 您 想 要 计算 的 商品 的 单价 与 数量 ; 
return 数量 

总 价 = 

青 请 


使 用 逗号 隅 开 您 想 要 计算 的 商品 的 单价 与 数量 ; 
20, 45 


print (商品 总 价 是 :“， 总 价 ) 


歇 想 要 计算 的 商品 的 单价 与 数量 ， 


中 次 
凰 语 训 字 习 时 Al 凰 我 的 github 辆 学 习 资源 凰 好 民 凰 web 大 学习 库 凰 


Logout 


| Python 3 人 


m)) 


3.5 使 用 Jupyter Notebook 运行 程序 


从 图 3.5 可 以 看 出 Jupyter Notebook 比 直接 使 用 vs 


code 运行 代码 更 友好 ， 且 文 持 文本 编辑 ， 


因而 ，Jupyter Notebook 更 适合 做 笔记 ， 学 习 使 用 。 至 此 ， 应 该 对 Python 有 了 一 定 的 认识 。 下 


面 将 详细 痔 述 Python 的 形式 与 语义 。 


3.2 Python 基础 知识 


上 面 的 例子 中 我 们 使 用 “商品 价格 计算 ”，“ 商 品 总 价 ”，“ 单 价 ”，“ 数 量 ”这 些 名 称 
来 表示 我 们 想 要 做 的 功能 。 这 种 操作 在 Python 之 中 是 很 常见 的 。 在 Python 之 中 一 般 称 其 为 标 


识 符 。 
3.2.1 标识 符 : 我 们 的 描述 对 象 的 名 称 


az 万 们 


在 Python 中 对 标识 符 有 一 些 约定 规 则 : 每 个 


字符 必 


须 以 字母 或 下 划 线 〈 即 - 字符 ) 开头 ， 


后 可 跟 字 母 、 数 字 或 者 下 划 线 的 任意 序列 。 这 里 
韩文 等 其 他 语言 的 字符 ， 

叫好 三 

从 人 ALc5er=7 


print( 串 3 从 色 上 3 en 
不 过 ， 人 们 通常 还 是 习惯 使 用 
用 您 喜欢 的 字符 ， 也 是 可 以 的 。 但 是 Python ， 


是 Python 本 吴 的 一 部 分 ， 


一 些 约 


字 母 可 以 是 英文 字母 ， 也 可 以 是 汉字 ， 
比如 下 面 的 代码 《程序 有 时 也 被 称 为 代码 ) 在 Python 中 也 是 合法 的 ; 


英文 字母 ， 故 而 ， 本 书 也 一 相 


日 文 ， 


人 


果 您 相 要 


使 用 英文 字母 o 如 果 您 想 要 使 
定 的 符号 一 般 都 是 英文 的 ， 并 且 它 们 也 


让 


不 能 作为 普通 标识 符 ， 一 般 被 称 为 关键 字 。 本 章 已 经 出 现 的 Python 


其 他 的 关键 字 的， 本 章 便 不 做 展开 了 。 


的 关键 字 有 def、Pprint、return， 在 之 后 的 章节 您 会 见 到 


上 王 总 : 


@ 关 于 Python 的 标识 符 ， 您 还 需要 知道 


@ 为 了 统一 本 书 的 符号 ， 本 书 之 后 的 章节 


的 是 英文 字母 是 区 分 大 小 写 的 。 
的 标识 符 的 字母 仅 使 用 英文 字母 。 


@ 标 识 符 不 能 使 用 数字 作为 开头 。 


3.2.2 赋值 语句 


在 Python 中 标识 符 标 记 了 我 们 需要 描述 的 对 象 的 名 称 ， 类 似 于 我 们 为 各 种 比较 复杂 的 符 
号 或 者 现实 生活 中 的 一 个 物体 的 抽象 起 名 字 ， 为 其 赋 能 。 在 3.1 的 例子 中 我 们 见 到 了 模块 的 标 
识 符 ， 本 小 节 将 介绍 如 何 操作 更 多 的 已 经 创建 好 的 实体 (有 了 一 定语 义 的 对 象 ) 的 标识 符 。 
在 Python 中 已 经 定义 了 一 些 有 实际 语义 的 对 象 ， 比 如 数字 《比如 ，1，2.5 等 ) ， 字 符 串 
(用 于 描述 文字 的 对 象 ， 比 如 “Tom”) 等 。 如 果 这 些 对 象 很 复杂 ， 比 如 
12313334212323146645846346396， 您 不 可 能 每 次 都 去 输入 这 么 长 一 串 数字 吧 ? 为 了 简化 ， 我 
们 可 以 给 这 个 数字 起 一 个 “名 字 ”( 即 标识 符 ) ， 即 : 

a = 12313334212323146645846346396 

这 样 ， 您 只 需要 记 住 和 使 用 a 便 可 。 因 为 a 就 是 数字 12313334212323146645846346396 的 
代表 。 
更 加 正规 的 说 法 是 a 被 称 为 变量 ， 而 = 被 称 为 赋值 ，= 之 后 的 数字 被 称 为 值 。 更 一 般 的 形 
式 是 < 变量 > = < 表达 式 >〈 表 示 将 表达 式 赋 值 给 变量 ) 。 其 中 <> 表示 由 Python 代码 的 其 他 片 
段 填充 的 槽 。 表 达 式 即 产 生 或 者 计算 Python 对 象 的 程序 ， 比 如 : 1+7，4*3，71S，"a" + "v"， 
a#x2 等 。 当 然 ， 数 字 和 字符 串 也 属于 表达 式 。 

关于 赋值 语句 还 有 一 些 强大 的 功用 ， 在 之 后 的 章节 在 详细 介绍 。 


3.2.3 输入 与 输出 


在 Python 中 是 通过 两 个 函数 来 操控 输入 《〈 即 您 通过 键盘 等 键入 的 信息 ) 与 输出 《打印 出 
来 的 信息 ) 的 。 下 面 给 出 它们 的 具体 形式 ; 

输入 : <“ 变量 > = input(< 用 于 提示 用 户 的 字符 串 表 达 式 >) 

输出 : print(< 表 达 式 >,< 表 达 式 >,< 表 达 式 >) 

关于 输入 与 输出 的 例子 ， 可 以 参考 3.1 节 的 示例 。 


3.3 数据 类 型 


考虑 到 Python 2 已 经 慢 慢 地 淡出 人 们 的 视野 ， 故 而 仅仅 考虑 Python 3 即 可 《〈 之 后 的 说 明 
不 再 明确 指出 是 Python 3， 出 现 的 Python 一 律 视 为 Python 3) 。Python 中 有 六 个 标准 的 数据 类 
型 : Number (数字 ) 、String 〈 字 符 串 ) 、List 〈 列 表 ) 、Tuple 〈 元 组 ) 、Sets 〈 集 合 ) 、 
Dictionary 〈 字 典 ) 〈 注 意 : 本 书 中 涉及 的 Python 是 Python 3.6.X~3.7.X 版 ， 暂 不 考虑 
Python3.8) 。 
在 介绍 Python 的 数据 类 型 之 前 ， 先 了 解 变量 。Python 中 的 变量 不 需要 声明 。 每 个 变量 在 
使 用 前 都 必须 赋值 ， 变 量 赋值 以 后 该 变量 才 会 被 创建 〈 换 言 之 ，Python 的 变量 是 动态 的 ,可 以 
使 用 del 语句 删除 一 些 对 象 引用 ) 。 变 量 是 通过 = 进行 创建 的 ， 比 如 

a=1 


= 运算 符 左 边 是 一 个 变量 名 ， 右 边 是 存储 在 变量 中 的 值 〈 该 值 是 有 类 型 的 ) 。 


再 次 回 到 数据 类 型 的 话题 上 来 ， 在 Python 中 ， 
“类 型 ”是 变量 所 指 代 的 内 存 中 对 象 的 类 型 。 等 号 
Python 3 的 数据 类 型 。 


变量 就 是 变量 ， 它 没有 类 型 ， 我 们 所 说 的 
《=) 用 来 给 变量 赋值 。 下 面 将 逐一 展开 


3.3.1 Number 数字 


Python 3 支持 int、float、bool、complex 〈 复 数 ) 。 需 要 注意 的 是 在 Python 3 里 ， 只 有 
种 整数 类 型 int， 表 示 为 长 整 型 ， 没 有 Python 2 中 的 Long 〈 不 包括 Python 3.8 及 其 以 后 的 版 
本 ) 。 如 果 需 要 查看 数据 类 型 ， 可 以 通过 内 置 的 type0 函数 来 查询 变量 所 指 的 对 象 类 型 。 

ab'c' ds=204 5.534 True 43+3j 

print(type(a), type(b), type(G, type(d)) 


显示 输出 : 


<Cclass 'int > <class float > <class bool' > <class ' complex > 


3.3.2 String 字符 串 


Python 中 的 字符 串 用 单 引 号 () 或 双 引 号 () 括 起 来 ， 同 时 使 用 反 斜 本 人 转 义 特 殊 字 符 。 
在 Python 3.X 中， 有 4 种 字符 串 类 型 
@str: 用 于 Unicode 文本 (ASCII 或 其 他 更 宽 的 ); (ASCI 看 作 Unicode 的 一 种 简 
单 类 型 ) 
@bytes: 用 于 二 进 制 数据 (包括 编码 的 文本 ); 
@bytearray: 是 一 种 可 变 的 bytes 类 型 。 
@raw 字符 串 : 原始 字符 串 ， 保 留 字符 串 的 原始 格式 ， 包 括 转 义 字 符 。 
在 字符 串 的 处 理 中 有 两 个 重要 的 概念 : 
@ 编 码 : 是 根据 一 个 想 要 的 编码 名 称 ， 把 一 个 字符 串 翻 译 为 原始 字 节 形式 。 
居 


@ 解 码 : 是 根据 其 编码 名 称 ， 把 一 个 原始 字 节 串 翻 译 为 字符 哩 形式 的 过 程 。 
举 个 例子 
S='nmi 
S.encode(asci), S.encodellatin1), S.encode(utf8) 
输出 结果 : 
(bni, bmni, bmni) 


更 多 详细 内 容 ， 可 以 查阅 我 的 博客 : 
https://www.cnblogs.com/q733613050/p/7341004.html 


3.3.3 List 列表 


List (列表 ) 是 Python 中 使 用 最 频繁 的 数据 类 型 。 列 表 中 元 素 的 类 型 可 以 不 相同 ， 它 支持 
数字 ， 字 符 串 甚至 可 以 包含 列表 〈 即 所 谓 的 列表 嵌 套 ) 。 列 表 是 写 在 方 括号 (D) 之 间 并 用 逗号 
分 隔 开 的 元 素 列表 。 


3.3.4 Tuple 元 组 


元 组 〈tuple) 与 列表 类 似 ， 不 同 之 处 在 于 元 组 的 元 素 不 能 修改 。 元 组 写 在 小 括号 (0) 里 ， 
元 素 之 间 用 逗号 陋 开 。 一 般 来 说 ， 函 数 的 返回 值 一 般 为 一 个 ， 而 函数 返回 多 个 值 的 时 候 ， 是 以 
元 组 的 方式 返回 的 。python 中 的 函数 还 可 以 接收 可 变 长 参数 ， 以 “*" 开 头 的 的 参数 名 ， 会 将 所 
有 的 参数 收集 到 一 个 元 组 上 。 


3.3.5 Set 集合 


集合 〈set) 是 一 个 无 序 不 重复 元 素 的 序列 。 基 本 功能 是 进行 成 员 关 系 测 试 和 删除 重复 元 素 。 
可 以 使 用 大 括号 { } 或 者 setO 函数 创建 集合 ， 但 是 需要 注意 : 创建 一 个 空 集 合 ， 必 须 用 
setO 而 不 是 { }， 因 为 { } 是 用 来 创建 一 个 空 字典 的 。 


3.3.6 Dictionary 字典 


字典 《〈dictionary) 是 Python 中 另 一 个 非常 有 用 的 内 置 数据 类 型 。 两 者 之 间 的 区 别 在 于 : 
字典 当中 的 元 素 是 通过 键 来 存 取 的 ， 而 不 是 通过 偏 移 存 取 。 字 典 是 一 种 映射 类 型 ， 字 典 用 “{ 六 
标识 ， 它 是 一 个 键 (key): 值 (value) 对 组 成 的 集合 。 键 (key) 必 须 使 用 不 可 变 类 型 。 在 同一 个 字 
和 es 须 是 唯一 的 。 

上 述 介绍 的 Python 数据 类 型 在 一 定 的 条 件 下 是 可 以 相互 转换 的 。 


3.4 Python 数据 类 型 转换 


如 表 3.1 所 示 的 几 个 内 置 函 数 可 以 执行 数据 类 型 之 间 的 转换 。 这 些 函 数 返 回 一 个 新 的 对 象 ， 
表示 转换 的 值 。 


表 3.1 常见 的 Python 数据 类 型 转换 函数 
函数 描述 
int(X [,base]) 将 x 转换 为 一 个 整数 
float(x) 将 X 转 换 到 一 个 浮 点 数 
RN 创建 一 个 复数 
[Limag]) 
Str(X) 将 对 象 x 转换 为 字符 串 
repr(Ox) 将 对 象 x 转换 为 表达 式 字符 串 
用 来 计算 在 字符 串 中 的 有 效 Python 表达 式 ,并 返回 一 个 
eval(stmD) 
对 象 
tuple(S) 将 序列 s 转换 为 一 个 元 组 
list(s) 将 序列 s 转换 为 一 个 列表 


Set(S) 转换 为 可 变 集合 
dict(d) 创建 一 个 字典 。D 必须 是 一 个 序列 (key,value) 元 组 。 
Frozenset(S) 转换 为 不 可 变 集合 
chr(x) 将 一 个 整数 转换 为 一 个 字符 
unichr(x) 将 一 个 整数 转换 为 Unicode 字符 
ord(Ox) 将 一 个 字符 转换 为 它 的 整数 值 
hex(x) 将 一 个 整数 转换 为 一 个 十 六 进 制 字符 串 
oct(X) 将 一 个 整数 转换 为 一 个 八进制 字符 串 


3.5 运算 符 


仅仅 有 了 数据 类 型 还 不 能 满足 于 计算 机 视觉 的 任务 ， 还 需要 可 以 进行 操作 的 运算 符 ， 接 下 
来 进行 详细 学 习 。 


3.5.1 算 木 运算 符 & 赋值 算 木 运算 符 


算术 运算 符 廊 赋 值 算术 运算 符 ， 如 表 3.2 所 示 。 
表 3.2 算术 运算 符 广 赋值 算术 运算 符 


算术 运 赋值 算术 
算 符 述 运算 符 描述 示例 
十 加 (两 个 对 象 相 加 ， 或 者 序列 的 十 = 加 法 赋值 运 | c +=a 等 效 于 c=c+a 
拼接 ) 算 符 
减 -= 减法 赋值 运 | c -=a 等 效 于 c=c-a 
算 符 
乘 (两 个 数 相 乘 或 是 返回 一 个 被 # 一 乘法 赋值 运 | cx*= a 等 效 于 c=cx*a 
重复 若干 次 的 序列 ) 算 符 
/ 除 ( 两 个 数 相 除 ) /= 除法 赋值 运 | ca 等 效 于 c=cy/a 
算 符 
2 取 模 (返回 除法 的 余数 ) 2%= 取 模 赋值 运 | c %= a 等 效 于 c=c%a 
算 符 
5 时 # 一 壤 赋 值 运 算 | c **= a 等 效 于 c=cxxa 
符 
// 整除 /= 取 整 除 赋值 | cV/= a 等 效 于 c=c/Wa 
运算 符 
= 简单 的 赋值 | c=a+b 将 a+b 的 运 
运算 符 算 结 果 赋 值 为 c 


3.5.2 位 运算 符 
按 位 运算 符 是 把 数字 看 作 二 进 制 来 进行 计算 的 〈 此 类 运算 符 一 般 很 少 使 用 )， 如 表 3.3 所 
示 。 
表 3.3 位 运算 符 
运算 
符 描述 
按 位 与 运算 符 : 参与 运算 的 两 个 值 ,如 果 两 个 相应 位 都 为 1, 则 该 位 的 结果 为 1, 否则 为 0 
| 按 位 或 运算 符 : 只 要 对 应 的 二 个 二 进位 有 一 个 为 1 时 ， 结 果 位 就 为 1。 
放 按 位 异 或 运算 符 : 当 两 对 应 的 二 进位 相 异 时 ， 结 果 为 1 
空 按 位 取 反 运算 符 : 对 数据 的 每 个 二 进 制 位 取 反 , 即 把 1 变 为 0, 把 0 变 为 1。~x 类 似 于 - 
X-1 
<< 左 移动 运算 符 : 运算 数 的 各 二 进位 全 部 左 移 若 干 位 ， 由 “<<" 右 边 的 数 指定 移动 的 位 
数 ， 高 位 丢弃 ， 低 位 补 0。 
>> | 右 移动 运算 符 : 把 人 > 左边 的 运算 数 的 各 二 进位 全 部 右 移 若干 位 ,“>>” 右 边 的 数 指定 
移动 的 位 数 
下 面 简单 举 几 个 例子 : 
a=60 #60 = 0011 1100 
b = 13 #13 = 0000 1101 
CE 
#& 运算 


C=a&b  ##12=00001100 


print ("a& b 的 值 为 : "c 


# | 运算 


cC=alb  #61=00111101 


print ("a | b 的 值 为 : ", c 


# ^ 运算 


cC=a^b  #49=00110001 


print ("a^b 的 值 为 : ， c 


# ~ 运算 


加 三 人 各 #-61= 1100 0011 


print ("~a 的 值 为 : ， c) 
# << 运算 


C=a<<2  #240=1111 0000 


print ("a << 2 的 值 为 : 
#>> 运算 


上 O) 


C=a>>2 #15=00001111 


print ("a >> 2 的 值 为 : 
输出 结果 : 
a&pb 的 值 为 : 12 
al|b 的 值 为 : 61 
a^b 的 值 为 : 49 
~a 的 值 为 : -61 
a<<2 的 值 为 : 240 


"0) 


a>>2 的 值 为 : 15 


3.5.3 比较 运算 符 & 逻辑 运算 符 


在 Python 中 比较 两 个 变量 的 值 一 般 有 比较 运算 符 提 供 支 持 : ==、<=、<、>=、>、!=。 比 
较 运 算 符 返 回 的 是 布尔 值 True/False) 。 而 逻辑 运算 符 需 要 注意 and 与 or 的 惰性 求 值 ， 如 表 


上 


3.4 所 示 。 
表 3.4 Python 逻辑 判断 运算 符 
逻辑 运算 | 还 辑 表 达 
符 式 描述 
and Xandy | 布尔 “与 ”( 如 果 x 为 False，xandy 返回 False， 否 则 它 返 回 y 的 计算 
直 。) 
Or X Ory 布尔 “或 ” (如 果 x 是 True， 它 返 回 x 的 值 ， 否 则 它 返 回 y 的 计算 
直 。) 
not not X 布尔 “ 非 ” (如果 x 为 True， 返回 False 。 如 果 X 为 False， 它 返回 
True。) 


\ 一 所 pe /rr 


3.5.4 成 员 运 算 符 & 身份 运算 符 


成 员 运 算 符 用 于 搜索 成 员 (或 者 元 素 ) 是 否 存在 于 某 一 个 序列 或 集合 等 结构 之 中 ， 如 表 
3.5 所 示 。 


长 3.3 Python 成 员 运 算 符 


成 员 运算 符 描述 
im 如 果 在 指定 的 序列 中 找到 值 返回 True， 和 否则 返回 False。 
not in 如 果 在 指定 的 序列 中 没有 找到 值 返回 True， 否 则 返回 False。 
身份 运算 符 用 于 比较 两 个 对 象 的 存储 单元 ， 如 表 3.6 所 示 。 
表 3.6 Python 身份 运算 符 
身份 运 
算 符 描述 实例 
is 判断 两 个 标识 符 是 不 是 | xis y, 类 似 id(x) == id(y) , 如 果 引 用 的 是 同一 个 对 象 则 返 匠 
引用 自 一 个 对 象 True， 和 否则 返回 False 
is not |」 判断 两 个 标识 符 是 不 是 | xis noty ， 类 似 id(a) != id(b)。 如 果 引 用 的 不 是 同一 个 对 
引用 自 不 同 对 象 象 则 返回 结果 True， 和 否则 返回 False。 


注意 : id0 函 数 用 于 获取 对 象 内 存 地址 。 


3.6 Python 运算 符 优 先 级 


运算 符 也 需要 有 一 个 运算 的 先后 ， 如 表 3.7 所 示 列 出 了 从 最 高 到 最 低 优先 级 的 所 有 运算 符 。 
表 3.7 Python 运算 符 优 先 级 排序 


运算 符 描述 
本 指数 (最 高 优先 级 ) 
< 击 = 按 位 翻转 , 一 元 加 号 和 减 号 (最 后 两 个 的 方法 名 为 +@ 和 -@) 
#/ 和/ 乘 ， 除 ， 取 模 和 取 整 除 
本 加 法 减法 
>> << 右 移 ， 左 移 运 算 符 
人 位 “AND 运算 符 
人 位 运算 符 
<=<> >= 比较 运算 符 
x>EE 1= 等 于 运算 符 
= %= /= /= -= += “一 站 一 赋值 运算 符 
is is not 身份 运算 符 
in not in 成 员 运 算 符 
not or and 逻辑 运算 符 


3.7 从 容 髓 角度 看 竺 list, tuple, dict, set 等 结构 


我 们 可 以 将 Python 中 的 list tuple, dict set 以 图 3.6 所 示 的 形式 进行 划分 。 


图 3.6 从 容器 角度 看 待 ist, tuple, dict set 等 结构 

容器 表示 需要 处 理 的 对 象 是 一 组 或 者 多 组 而 不 是 单个 。 如 果 一 个 组 数据 是 有 序 的 并 且 支 持 
切片 和 索引 功能 ， 我 们 可 以 将 其 视 为 序列 : 每 个 元 素 可 以 是 任何 类 型 (也 可 以 是 序列 )， 每 个 元 
素 被 分 配 一 个 序号 (从 0 开始 ) (序号 ， 也 叫 索引 ， 表 示 元 素 的 位 置 ) 。Python 中 可 以 视 为 序列 


的 数据 结构 有 : 元 组 ， 列 表 ， 字 符 串 ，buffer 对 象 ，range 对 象 等 。 
Python 中 的 序列 可 以 类 比 数学 中 的 数列 进行 理解 ， 而 Python 中 的 seUfrozen 与 dict 亦 是 完 
全 可 以 借助 数学 中 的 “集合 ”进行 理解 。 


3.7.1 序列 的 基本 操作 : 索引 与 切片 


索引 使 用 方法 : 序列 [编号 ]。 
下 面 以 列表 为 示例 进行 说 明 ， 


a = [1,2,3,4,5] 

a[0] 关 厌 幼 莹 3/ 为 0 罗 元 辫 

输出 : 

1 

上 述 的 代码 中 列表 a 等 价 于 数学 中 的 数列 a = faou ait,az,aa,a4}j， 而 其 索引 a[0] 即 为 ao 。 


切片 使 用 方法 : 序列 [开始 编号 :结束 编号 后 一 个 : 步 长 (默认 为 ID)]。 
示例 : 
al[1:3] 
输出 : 
[2, 3 
这 里 af[1:3] 指 代数 列 a 中 的 aaz 。 切 片 支 持 负 索 引 : 
al[1:-1] 
输出 : 
[2, 3, 4] 
即 负 索 引 是 从 右边 开始 算 起 以 -1 作为 起 点 的 。 切 片 操作 中 的 步 长 指 代 移 动 的 间隔 ， 可 以 
将 其 视 为 数列 的 下 标 以 步 长 为 等 差 的 数列 。 详 细 点 说 ， 序 列 afi;j:kx] 表示 选取 数列 fao，……an} 
的 子 列 ， 该 子 列 分 别 以 ai aj 作为 起 点 与 终点 ， 以 为 等 差 。 需 要 注意 的 是 Python 中 jj 可 以 
缺 省 。 缺 省 i 表示 起 点 为 ao， 缺 省 j 表示 终点 为 an， 缺 省 k 表示 步 长 为 1。 
举例 如 下 : 
print(a[1:]) 
print(a[:-1]) 
al] 
输出 : 
[2, 3, 4, 5] 
[1, 2, 3, 4] 
[1, 2, 3, 4, 5] 


3.7.2 序列 的 拼接 


拼接 有 两 种 方法 : + 与 *。 其 中 + 类 似 于 如 下 功能 : 一 篮 苹果 + 一 篮 香 人 = 两 篮 水 果 。 
使 用 方法 : 序列 + 序列 。 


[1 2, 3, 2, 3, 4 


需要 注意 的 是 + 并 没有 改变 原 有 序列 : 


a 
输出 仍然 不 变 : 
[1,2,3] 


*# 类 似 于 : 一 个 苹果 #kn=n 个 苹果 。 


使 用 方法 : 序列 xn 表示 重复 次 数 )。 


示例 ; 
a=[1.2.3] 
a"3 

输出 : 


机 3， ES SR 和 引 


.3 序列 的 其 他 方法 


3. 


~ 


in: 判断 某 个 元 素 是 否 存在 。 
使 用 方法 : 
ain 序列 A 

若 aEA, 则 返回 True， 否则 返回 


False 。 


len,max,min 分 别 返 回 序 列 的 长 度 ， 最 大 值 ， 最 小 值 。 


使 用 方法 : 
len( 序 列 ) 
max( 序 列 ) 
min( 序 列 ) 


3. 


~ 


.4 序列 之 列表 


前 面 几 个 小 结 介 绍 的 是 序列 的 通 


1. 列 表 的 修改 
我 们 先 创建 一 个 列表 a: 
a=[1,2,3,4] 


| 方法 ， 下 面 着 


可 以 直接 对 列表 中 茶 个 元 素 进 行 修改 : 


al0122 
己 
输出 结果 : 


[2, 2, 3, 4] 


也 可 以 对 列表 的 某 个 子 列 进行 修改 : 


al13]3[5.6] 
Q 
输出 结果 为 : 


[2, 5, 6, 4] 


al[1:3]=" 
a 


当然 ， 也 可 以 通过 赋值 删除 列表 中 的 部 分 元 素 : 


输出 结果 为 : 
[2, 4 
可 以 通过 赋值 扩展 列表 元 素 ; 
al0:0] 了 99.88] 


纪 

输出 结果 为 : 

[99 88 2 可 

可 以 通过 list 函数 直接 将 字符 串 转换 为 列表 : 


al[1:3]=list(hello) 

a 

输出 结果 为 : 

[99, he ,To 4 

删除 列表 中 的 元 素 ， 也 可 以 使 用 del 语句 : 
del a[0] 

a 

输出 结果 为 : 

[he To， 4] 

删除 列表 中 多 个 元 素 : 

del a[0:3] 

a 

输出 结果 为 : 

[0, 4 

2. 列 表 的 append 方法 
使 用 调用 对 象 的 方法 : 对 象 .方法 (参数 )， 可 以 在 列表 的 末尾 追加 新 的 元 素 : 
a=[1,2,3] 

a.append(4) 

a 

输出 结果 为 : 

[1, 2, 3, 4] 
亦 可 以 追加 一 个 列表 : 
a.append([1,5,fr]) 

a 

输出 结果 为 : 

[1 2, 3, 4, [1 5, f]] 

3. 列 表 的 count 方法 

查看 某 个 元 素 在 列表 中 出 现 的 次 数 : 
a=[1,2,3,4,1,2] 

a.Count(1) 


查看 1 在 a 列表 中 出 现 的 次 数 : 


2 

4. 列 表 的 extend 方法 

使 用 其 他 列表 拓展 原 有 列表 ， 其 他 列表 的 元 素 被 添加 到 原 有 列表 的 末尾 ; 
a=[1,2,3] 

a.extend([4,5,6]) 

a 


输出 结果 为 : 
[1, 2, 3, 4, 5, 6] 
S. 列 表 的 index 方法 


返回 茶 个 元 素 的 索引 ， 如 若 此 元 素 不 存在 ， 则 会 引发 异常 。 


a=[1,2,3,45,5,45,7,84] 

a.index(45) 

输出 结果 为 : 

3 

6. 列 表 的 insert 方 法 

在 序列 的 某 个 位 置 插入 一 个 元 素 : 
a=[1,2,3,4] 

a.insert(2,hello) 

a 

输出 结果 为 : 

[1, 2, hello, 3, 4] 

插入 超出 边界 位 置 的 元 素 不 会 报错 : 
##20 寻 龙 熏 不 存在 ， 千 仍 类 烈 列 疙 天 屋 
a.insert(20,,world) 

a 

输出 结果 符合 预期 ; 

[1 , 2,，hello, 3 4，world'] 

7. 列 表 的 pop 方法 

移 除 列 表 某 个 位 置 的 元 素 并 返回 该 元 素 ， 如 若 没 有 指定 要 


a[12.3 必 

a.pop() 

移 除 末 尾 的 元 素 ， 并 返回 : 
4 
现在 查看 a: 
引 
输出 结果 为 : 

[12.3] 

a 确实 移 除了 末尾 元 素 ， 下 面 移 除 首位 元 素 ; 


[2,3] 

8. 列 表 的 remove 方法 

移 除 序列 中 第 一 个 与 参数 匹配 的 元 素 : 
a=[1,2,88,3,4,88,?] 

a.remove(88) 

a 


移 除 元 素 的 位 置 ， 则 默认 移 除 末 


输出 结果 为 ; 

[1, 2, 3, 4, 88, 3] 
9. 列 表 的 reverse 方法 
将 列表 改 为 倒序 : 
a=[1,2,3,4,2.5,3] 
a.reverse() 

a 
输出 结果 为 : 

[3, 5, 2, 4, 3, 2, 1] 
10. 列 表 的 sort 方法 
默认 为 升序 : 
a=[4.6,2.1.7.9.6] 
a.Sort() 

a 
输出 结果 为 : 

[1, 2, 4 6, 6, 7, 9] 
通过 参数 修改 排序 : 

参数 key 用 来 为 每 个 元 素 提 取 比 较 值 (默认 值 为 None); reverse 为 True 时 是 反 序 (默认 值 为 
False)。 

names=[Judy', "Perter, Perkins] 

names.sort(key=len) 

names 

输出 结果 为 ; 


[Judy，Perter，'Perkins)] 


3.7.5 序列 之 元 组 
元 组 与 字符 串 是 序列 中 的 不 可 修改 的 ， 关 于 字符 串 有 点 复杂 ， 本 章 便 不 作 展 开 ， 仅 仅 考虑 
元 组 。“ 元 组 的 不 可 修改 ”是 指 元 组 的 每 个 元 素 的 指向 永远 不 变 : 
6=(python520150101 [ab) 


b 
输出 结果 为 ; 


(python', '20150101, [a,'b]) 

但 是 元 组 的 元 素 如 果 是 可 变 的 列表 ， 则 可 以 修改 : 
b[2][0]='c' 

b 
赋值 的 输出 结果 为 : 

(python', '20150101, [cb]) 
当然 也 可 以 添加 元 素 : 
b[2].append('d) 
b 


输出 结果 为 : 


(Python 20150101 Tc bo]) 


3.7.6 容器 之 字典 〈dict) 


从 数学 的 角度 来 看 ，dict 便 是 映射 ， 其 形式 为 : 

{key:value,…:} 

其 中 key 是 唯一 的 ， 具 有 排 它 性 ， 只 能 是 具有 不 可 变 的 字符 串 元 组 之 流 ， 而 value 则 没有 
制 ， 可 以 是 任意 Python 对 象 。 

1. 字 典 的 创建 

以 例子 说 明 : 

d={wang':111,U:1231 


< 
7 了 


d 
输出 结果 如 图 3.7 所 示 ， 代 码 如 下 ; 
{U: 123，wang': 111? 


图 3.7 字典 比 作 映射 


可 以 直接 通过 key 来 获取 value， 有 点 类 似 与 “ 查 字 典 "”。 当 然 ， 也 可 以 通过 dict 函数 依据 
元 组 对 创建 字典 : 

d1=dict([(A',1),(0B22)]) 

d1 

输出 结果 为 : 

{A: 1 'B':2} 

也 可 以 通过 dict 以 传 关键 字 参 数 的 形式 创建 字典 : 

d2=dict(A=1,B=2) 

d2 

输出 结果 为 : 

人 

2. 通 过 键 查找 或 修改 字典 

查找 字典 的 示例 : 

d={wang':111,U':1231 

d[U] 

输出 结果 为 : 

'123: 

修改 字典 : 

d[wang]=111 

d 


输出 结果 为 : 
{U: 123, wang': 11 代 
dict 也 有 del，len，in 的 操作 ， 这 里 就 不 展开 了 ， 下 面 简 要 介绍 dict 的 一 些 特殊 方法 。 


3. 字 典 之 clear0) 

清除 字典 中 所 有 的 项 ; 
d={(wang':111,U':1231 
d.clear() 

d 


输出 结果 为 : 


全 

4. 字 典 之 copy0 

浅 复制 ， 得 到 一 个 键 的 指向 完全 相同 原 字 典 的 副本 。 
d={(wang':111,U':[12,3,4]} 

d1=d.copy() 


原 地 修改 原 字典 d, 相 应 的 dl 也 会 被 修改 ,反之 亦 然 。 
d1[U].append(r 
d1 


输出 结果 为 : 


ftU5I 2 3 4 wang 1 


起 


和 出 结果 为 : 

{U': [1 2, 3, 4 wang': 1111 

可 以 看 出 d 也 被 修改 了 ， 但 如 果 使 用 deepcopy0 函数 则 可 以 避免 上 述 情况 发 生 。 
d={wang':111,U':[12,3,4]) 

from copy import deepcopy 
d1=deepcopy(d) 

d1 

输出 的 结果 为 : 

{U: IT 2, 3, 4]， wang': 1117? 

此 时 修改 dl: 

di1[U].append(lm) 

d1 

输出 结果 为 : 

{U: IT 2, 3, 4, Im wang' :1111》 

查看 d; 

d 

输出 结果 为 : 

{U: IT 2, 3, 4]， wang': 1117? 

可 以 看 出 d 没 有 随 dl 的 变化 而 变化 。 
S. 字 典 之 get 方法 ， 查 找 元 素 

如 若 元 素 不 存在 ， 可 以 自 定义 返回 的 内 容 〈 默 认为 None) : 
d= 人 

d.get(Cname) 


此 时 便 返 回 None， 而 下 面 赋值 语句 则 会 添加 字典 元 素 : 


d[name']='Tom' 

d 

输出 结果 为 : 

{name': Tom} 

再 使 用 get 方法 查看 ; 
d.get(Cname) 
输出 结果 便 不 是 空 (None) : 
"Tom' 
了 岂可 以 以 如 下 方式 赋值 : 
d.get(phone',Unknown') 

输出 结果 为 : 

Unknown' 

6. 字 典 之 setdefault 方法 ， 查 找 元 素 
与 get 方法 不 同 的 是 ， 当 键 不 存在 时 ， 
d 

输出 结果 为 : 

{name': Tom} 

使 用 setdefault 方法 : 
d.setdefault(phone', 119) 

输出 结果 为 : 

'119: 
此 时 d 也 被 改变 了 : 

d 

{name': Tom', phone': '1191 


7. 字 典 之 items0,keysO,values0 


自 定义 的 值 和 该 键 会 组 成 一 个 新 项 被 加 入 字典 。 


均 以 列表 的 形式 返回 a sef-like object， 其 中 的 元 素 分 别 为 “项 "，“ 键 ”>，“ 值 ” 


d={wang :111,U':[12,3,4]) 

d.items() 

返回 项 : 

dict items([(wang,，111), (0U, [1 2, 3, 4])]) 
返回 关键 字 ; 

d.keys() 

输出 结果 为 : 

dict keys([wang'，U1]) 
返回 值 : 

d.values() 

输出 结果 为 : 

dict_ values([111, [1 2, 3, 4]]) 
8. 字 典 之 pop( 键 ) 


返回 键 对 应 的 值 ， 并 删除 字典 中 这 个 锡 
d={fwang':111,U':[T12,3,4]} 

d.pop(CU) 

输出 结果 为 ; 

[1, 2, 3, 4] 

此 时 查看 d: 


对 应 的 项 ; 


有 而 旧 字 典 中 也 有 的 值 会 被 新 字典 的 值 所 代 蔡 。 


d 

输出 结果 为 : 

{wang': 111) 

可 以 看 出 U 所 在 项 已 经 被 删除 。 
9. 字 典 之 popitemO 
随机 返回 字典 中 的 项 ， 并 从 字典 中 删除 ; 
d={wang':111"U':[12,3,4]) 

d.popitem() 

输出 结果 为 : 

(U', [1 2, 3, 4]) 

此 时 碍 看 d: 

d 
输出 结果 为 : 

{wang': 111) 

10. 字 典 之 update 

使 用 新 字典 更 新 上 昌 字 典 : 新 字典 中 有 而 旧 字 


d1={n': xx,p2:1101 
d2={p':120,a':A1) 
d1.update(d2) 

d1 

输出 结果 为 : 

fa: An': xx p' 1201 
查看 d2: 

d2 

d2 没有 被 改变 : 

{a: Ap: 120) 


3.7.7 集合 


TIf 
贡 


典 中 没有 的 项 会 被 加 入 到 旧 


元 组 等 ) ， 且 元 素 间 有 互 异性 《与 数学 中 集 
set(Hello) 

答 出 结果 为 : 

{H;，e ,1 o) 

1. 集 合 的 基本 操作 

创建 集合 : 
S=Sset(['Python',is,a,magic,language]) 
print(S) 

输出 结果 为 : 

{a, magic， Python', language',，'iS) 
add 方法 ， 添 加 元 素 : 

SsS.add(') 

S 

输出 结果 为 ; 


合 的 定义 一 致 ) 。 


合 分 为 : 可 变 集 合 set0) 与 不 可 变 集 合 frozen()。 集 合 的 元 素 必 须 是 不 可 变 对 象 〈 如 字符 


位 Python， ais, language, magic'} 
也 像 dict 一 样 文 持 更 新 〈update) 
a=Sset([1,2,3,4]) 

b=set([3,4,5,6]) 

a.Update(b) 

a 


输出 结果 关 

(1 2, 3, 4, 5, 6)} 
remove 方法 删除 自 
S=Set('hello) 

S 


合 中 元 素 : 


7 


输出 结果 为 : 

八 本 0 二 | 本 oj 

查看 删除 后 的 集合 : 

Ss.removel(h) 

s 

输出 结果 为 : 

{ 人 于 

注意 : 删除 集合 元 素 ， 使 用 remorve 方法 ， 知 元 素 不 存在 ， 则 会 引发 错误 ， 而 discard 则 不 


s.dqiscard(om) 
下 面 再 看 看 集合 的 特殊 操作 。 
2. 集 合 之 等 价 (==) 与 不 等 价 (!=) 
set(Python'") == Set(python) 

输 出 结 果 为 : 

False 

而 : 
set(Python'") != set('python) 
输 出 结果 为 : 

True 
可 以 看 出 集合 对 元 素 的 大 小 写 是 敏感 的 。 

3. 子 集 与 超 集 

判断 前 面 一 个 集合 是 否 是 后 面 一 个 集合 的 严格 子 集 ， 子 集 ， 严 格 超 集 ， 超 集 : <,<=,>,>=: 
set(Hello) < set(HelloWorld) 

输出 结果 为 : 

Ue 


set(Hello) <= set(Hello) 
输出 结果 闪 

True 

4. 集 合 之 交 并 补差 
集合 的 并 运算 (U): 
Set(Hello) | set(world) 
输 昌 LI H 结果 为 : 

(人 仙 汪 qd 是 是 | 全 OOV 


岂 


输出 和 果 为 : 


tfHelloy - 
输出 结果 为 ; 
ee 


{ 人 2.56} 


合 的 关 ) 运 算 使 用 -: 


set('world) 


集合 的 对 称 差 使 用 ^: 
set(1234)xset([345.6]) 
俞 出 结果 为 : 


攻 合 合 的 交 ( 有 站) 使 用 公 ; 
Set(Hello) & set(world) 


5. 集 合 的 注意 事项 


如 是 可 变 集 


行 运算 ， 得 到 的 新 集合 的 类 型 


合 (seg 与 不 可 变 集 合 (frozenseb i 


同 。 


对 于 可 变 集 


住 全 已 
集合 八 能 包含 


a=set(Hello) 


合 (se0 可 以 进行 就 地 修改 ， 操 作 符 为 : 上 上,&=,-=,^= 


不 可 变 的 ( 即 可 散 列 的 ) 对 象 类 型 。 


a|= set(Python ) 


{H'， 局 'e)， 小 ， 上 mn， "0 1 y7 
a=Sset(Hello) 


a&= set('Python) 


a 


输出 结果 为 ; 


{fo} 


就 地 差 运算 : 


a=Set(Hello) 


a -= Set(Python) 


a 


输 出 结果 为 : 


ee 汪 从 


就 地 对 称 差 运算 ; 


a=Set(Hello) 


a^= set(Python) 


a 


输 出 结果 为 : 


{H， 和 E8 小 ， 小， mn， | y7 
set 与 位 ozenset 也 可 以 进行 运算 : 
b=set(Hello')|frozenset(Python') 


b 


输出 结果 为 ; 


人 省 民 攻 6 时 风 丽人 0 二 [入 下 
但 是 set 与 frozenset 的 顺序 不 同 ， 运 算 的 结果 也 不 相同 : 


4 与 左 操作 数 相 


C=frozenset(' Python')lset(Hello) 


C 
输出 结果 为 ; 


frozenset({f"H'， 下 'e， ' 沾 ， 中， 'n， '0)， y)) 


3.8 本 章 小 结 


本 章 主 要 简要 的 介绍 了 Python 的 基础 知识 ， 为 计算 机 视觉 的 编程 提供 了 编程 基础 。 同 时 ， 
本 章 最 后 从 容器 的 角度 进一步 阐述 Python 的 列表 、 元 组 、 字 典 以 及 集合 等 数据 结构 。 


第 4 章 Python 的 简易 进 阶 教 程 


在 第 3 章 了 解 了 Python 的 基础 知识 ， 认识 了 什么 是 标识 符 ， 什么 是 变量 与 表达 式 ， 同时 
详细 的 介绍 了 Python 支持 的 基本 数据 类 型 。 本 章 开 始 我 们 将 接触 如 何 使 


Python 操作 循环 流 
程 ， 执 行 条 件 判 断 等 一 系列 高 级 的 操作 。 


4.1 再 谈 “ 变 量 ” 


本 节 我 们 将 讨论 “变量 ”的 高 级 操作 。Python 的 对 象 一 般 可 以 分 为 可 变 对 象 与 不 可 变 对 象 
这 两 类 。 有 具体 解释 如 下 : 

可 变 对 象 : 对 象 存放 的 地 址 的 值 会 原 地 改变 ， 即 销毁 原来 的 值 ， 赋 予 新 的 值 。 有 1list、set 
dict。 
不 可 变 对 象 : 对 象 存 放 的 
( 即 True 和 False) 。 


了 


也 址 的 值 不 会 被 改变 。 有 tuple、str、frozenset、int、float、bool 


变量 可 以 看 作 是 Python 对 象 的 标签 或 引用 ， 又 被 称 为 对 象 引 用 。 在 Python 中 可 以 使 用 id0 
函数 查看 变量 的 引用 对 象 的 地 址 ， 可 以 使 用 == 判 断 两 个 引用 对 象 的 值 是 否 相等 ， 可 以 使 用 is 
判断 两 个 对 象 是 否 是 同一 个 对 象 。 下 面 看 几 个 例子 。 

我 们 仅 以 数字 对 象 为 例 : 

a 三 1 

print(id(a)) 

输出 结果 为 140728035942800， 即 数字 对 象 1 的 地 址 。 下 面 改变 数字 对 象 1 的 引 
b=1 

print(id(b)) 

输 昌 


必 


j 余 星 : 


一 | 


8 的 结果 依然 为 140728035942800， 这 说 明了 什么 ? 说 明 数 字 对 象 是 不 可 变 的 ， 且 变量 
仅仅 是 一 个 “引用 ”， 通 俗 点 说 ， 就 是 数字 1 被 贴 了 两 个 标签 a 与 b。 看 下 个 例子 : 


a=1 


b=1 

print(id(a) == idlbj, ais b, a == b) 

输出 了 True True True， 更 进一步 的 说 明 a 与 b 引用 了 同一 个 对 象 。 想 要 达到 上 述 同样 效 
果 ， 我 们 也 可 以 这 样 操 作 : 


4.1.1 交换 赋值 


我 们 再 看 一 个 比较 有 意思 的 变量 操作 : 交换 两 个 变量 的 赋值 。 在 此 之 前 ， 需 要 知道 Python 
支持 “联合 ”赋值 ， 即 : 


a=1 

bEE2 

等 价 于 : 

El 这 

因为 数字 对 象 是 不 可 变 的 ， 所 以 a 与 b 的 引用 是 不 同 的 : 
oj 三 色 

printlid(a) == id(b)) 

输出 结果 为 False 符合 我 们 之 前 讨论 的 逻辑 。 如 何 交 换 a 与 b 的 赋值 呢 ? 像 下 面 的 操作 吗 ? 
ab= 1 2 

a=b 

b =a 


这 样 是 不 行 的 。 因 为 数字 对 象 是 不 可 变 的 ， 当 执行 a=b 的 操作 时 就 已 经 将 b 的 值 赋值 给 a， 
并 且 二 者 牢 牢 的 绑 在 一 起 了 ， 再 次 执行 b=a 将 是 在 同一 对 象 的 引用 之 间 进 行 赋值 的 ， 故 而 没有 
改变 二 者 的 值 。 
那 该 怎么 办 呢 ? 人 们 往往 会 想到 引入 第 三 个 变量 ， 即 : 

ED 三 之 

temp = a 

a=b 

b =temp 

问题 得 以 解决 ! 但 是 有 点 太 繁 瑞 了 ， 有 没有 更 便捷 的 方法 ? 是 有 的 ， 在 Python 中 同时 赋 
值 提 供 了 一 个 更 优雅 的 选择 ， 即 ; 

本 加 E 汪 国之 

b,a=a,b 
因为 赋值 是 同时 的 ， 它 避免 了 的 除 一 个 原始 值 ， 同 时 也 实现 了 交换 赋值 的 目的 。 


4.1.2 可 变 对 象 的 赋值 


前 面 我 们 已 经 了 解 不 可 变 对 象 的 赋值 原理 ， 那 不 可 变 对 象 是 怎样 的 呢 ? 先 看 例子 : 
a=[2,5,7] 

b = [2, 5, 7] 

print(id(a) == idlbj, ais b, a == b) 


输出 结果 是 False False True， 那 两 个 False 表明 列表 对 象 [2, $, 7] 是 可 变 的 。 因 为 相同 的 值 
CTrue 说 明 值 相同 ) 的 可 变 对 象 ， 却 拥有 不 同 的 地 址 。 该 例子 说 明了 可 变 对 象 的 “ 变 ”， 但 是 
可 变 对 象 不 仅仅 在 于 “ 变 ”， 它 也 有 不 变 的 一 面 : 
=[2.5.7] 
print(id(a)) 
al[0] = 
print(id(a)) 
输 昌 [| 的 结果 果 是 : 
1754482627016 
1754482627016 
这 个 结果 表明 ， 您 虽然 改变 了 可 变 对 象 的 内 部 赋值 ， 但 是 可 变 对 象 的 引用 并 没有 被 改变 。 
这 里 有 一 个 误区 ， 务 必 注 意 : a =b = [2, 3, 4] 与 ab = [2, 3, 4], [2, 3, 4] 并 不 等 效 。 前 者 表 
示 将 [2, 3, 4] 赋 值 给 b， 然 后 再 将 b 与 a 进行 绑 定 ， 换 言 之 ， 此 时 a 与 b 是 同一 个 对 象 的 两 个 引 


而 后 者 


4.1 


.3 增 量 赋值 


我 们 了 解 了 赋值 算术 运算 符 《 


是 怎 


4PAN 


变 对 象 的 增 量 


E 看 一 个 增 量 赋值 的 例子 : 


事 ? 4 


么 一 回 
a=1 
print(id(a)) 
ar+=1 
print(id(a)) 

输出 了 两 个 不 同 的 id: 

140728035942800 

140728035942832 

再 看 看 普通 赋值 的 例子 : 

a=1 

print(id(a)) 
a=a+1 
print(id(a)) 

输 出 结果 与 上 个 例子 完全 一 致 : 
140728035942800 
140728035942832 
这 两 个 例子 说 明 对 于 不 可 变 对 象 的 增 

引 赋值 : 

a=[1, 2] 
print(id(a)) 
a+=[3] 
print(id(a)) 
输出 结果 为 : 

3018037481928 
3018037481928 
id 为 什么 没有 改变 ? 羽 

= [1, 2] 


] 


通 


因 :5i 


六 


者 则 是 两 个 有 相同 值 的 不 同 对 象 的 引用 。 


洛 - 旦 -. 
曾 量 


) 。 接 下 来 讨论 增 量 赋值 到 底 


或 被 称 为 增 量 


。 接 下 来 看 看 可 


量 赋值 仅仅 是 缩短 了 代码 的 长 度 而 已 


赋值 又 如 何 : 


print(id(a)) 

a=ar+[3] 

print(id(a)) 

输出 结果 为 : 

1403910443464 

1403911725000 

此 时 ，id 竟然 又 发 生 改 变 了 ? 通过 这 两 个 例子 ， 我 们 知道 : 对 于 可 变 对 象 ， 普 通 赋值 会 创 
建新 的 对 象 ， 而 增 量 赋值 会 就 地 修改 原 对 象 。 


4.1.4 符号 * 的 妙用 


如 果 想 要 使 用 一 个 变量 打包 赋值 某 些 特定 位 置 的 多 个 对 象 ， 那 么 需要 借用 *。 看 例子 : 
二 G 荆 SS 
print(e) 
输出 结果 为 : 
[2, 3, 4] 
这 里 变量 e 使 用 列表 的 形式 打包 了 多 个 数据 。 如 果 直 接 打 包 多 个 数据 ， 即 : 
GE 证 关 之 法 
print(a) 
输出 结果 为 (1, 2, 3)， 即 以 元 组 的 形式 进行 打包 。 有 时 ， 我 们 需要 合并 两 个 字典 ， 一 般 的 
操作 方法 是 这 样 的 : 
Xx=({a:1，b':3} 
y ={fc:7} 
Xx.Update(y) 
此 操作 将 y 合 并 进 了 x。 改 变 了 x， 为 了 不 改变 x， 我 们 可 以 借用 *: 
X 三 洒 ogl 本 DRS) 
y=fc:7} 
Z=dict(x”y) 


4.2 流程 控制 


前 面 的 章节 ， 已 经 使 用 了 许多 的 逻辑 判断 语句 ， 比 如 a is b，a==b 等 。 它 们 返回 的 结果 是 
布尔 值 ( 即 True 或 False) ， 用 于 判断 是 否 满 足 条 件 。 


4.2.1 真 值 测试 


前 面 提 到 的 逻辑 判断 都 是 单个 的 ， 如 果 想 要 判断 多 个 条 件 ， 可 能 会 用 到 : and、or、not， 
它们 的 逻辑 如 表 4.1 所 示 。 


表 4.1 and、or、not 使 用 逻辑 


真 值 判断 结果 


XandY 从 左 到 右 求 算 操 作对 象 ， 然 后 返回 第 一 个 为 假 的 操作 对 象 
XorY 从 左 到 右 求 算 操 作对 象 ， 然 后 返回 第 一 个 为 真 的 操作 对 象 
not X 返回 X 的 否定 值 

还 有 一 种 特殊 的 判断 方式 ， 断 言 〈assert) ， 看 例子 : 

num = -1 


assert num > 0, num should be positivel 


该 例子 用 于 判断 num 是 否 大 于 0， 如 果 不 满 足 ， 则 触发 报错 机 制 ， 并 给 出 引发 的 错误 信息 


mum should be positivel 。 


4.2.2 if 条 件 语 名 


为 了 给 出 多 种 选择 ， 您 可 以 使 用 让 条 件 语句 ， 看 下 面 的 例子 : 
year = int(input(" 请 输入 年 份 : 
if (year% 4==0andyear % 100 = 0) or year % 400 == 
print(' 装 年) 
else: 
print( 平 年 ) 
该 例子 给 出 了 判断 是 否 是 “ 国 年 ”的 选择 结构 ， 不 同 的 选择 输出 不 同 的 结果 。 这 是 一 个 二 项 
选择 题 ， 也 可 以 设置 为 多 项 选择 : 让 elif-elif-.…-elif-else。 


4.2.3 循环 结构 


在 Python 中 有 两 种 常用 循环 结构 : for 语句 与 while 语句 。for 语句 可 以 用 于 可 迭代 对 象 
《 即 可 以 一 个 挨 着 一 个 是 取出 来 的 数据 对 象 ， 正 式 点 说 就 是 内 部 实现 了 __iter “方法 的 Python 
对 象 ) 的 数据 的 遍历 。 看 个 例子 ; 

forKkin[2. 3 和: 

print(k) 

该 例子 将 会 把 列表 [2, 3, 4] 中 的 内 容 逐 个 取出 并 打印 。 可 友 代 对 象 有 但 不 限于 : range(0)， 
列表 ， 字 典 ， 集 合 ， 元 组 等 。for 语句 是 一 个 确定 的 循环 体 〈 循 环 之 前 已 经 知道 其 循环 的 次 
数 ) ， 而 whie 语句 则 是 一 个 不 定 循 环 ， 看 例子 : 


k = 20 

while k >= 10:# 直到 不 满足 条 件 时 ， 终 止 循环 
print(k) 
k-= 1 


从 这 个 例子 可 以 看 出 while 语句 并 不 能 提前 直接 预知 可 能 的 循环 次 数 ， 需 要 借助 条 件 判断 
来 终止 循环 。while 语句 是 依据 条 件 判断 进行 的 循环 体 〈 也 被 称 为 条 件 循环 ) ， 它 可 以 实现 一 
些 有 趣 的 功能 ， 比 如 : 
Xx = range(200, 100, -25) 
while x: 
print(x, end=' ) 


range(200, 100, -25) range(175, 100, -25) range(150, 100, -25) range(125, 100, -25) 

这 个 例子 实现 将 一 个 range 对 象 ， 不 断 改变 起 点 打印 输出 的 功能 。 再 来 看 看 while 如 何 简 
单 测试 卡拉 兹 (Callatz) 猜 想 : 对 任何 一 个 自然 数 n， 如 果 它 是 偶数 ， 那 么 把 它 砍 掉 一 半 ;， 如 果 它 
是 奇数 ， 那 么 把 3n + 1 砍 掉 一 半 。 这 样 一 直 反 复 砍 下 去 ， 最 后 一 定 在 某 一步 得 到 n" = 1。 

# 卡拉 兹 猜想 

num = int(eval(input(" 请 输入 初始 值 : ))) 

while num != 1: 


if num % 2 == 0: 
num /= 2 
else: 
num = num*3+1 
print(tnum) 


while 语句 不 仅 限 于 这 些 功用 ， 它 可 以 通过 continue 直接 跳 到 最 近 所 在 循环 的 开头 处 ， 来 
到 循环 的 首 行 ， 而 不 继续 往 下 执行 。 比 如 ， 下 面 一 个 例子 将 打印 0-10 之 间 的 除 10 之 外 的 所 有 
偶数 : 


xl0 
While X: 
X-=1 
和 X%2!=0: 
continue # 跳 过 打印 
else: 


print(x, end=' ) 
在 Python 中 还 提供 了 一 种 叫 else 子 句 的 机 制 ， 用 于 完成 while 循环 之 后 的 后 续 操 作 。 看 一 
个 判断 质数 的 例子 : 
y = int(input( 输 入 数字 : )) 
X=yV/2 
while x > 1 : 
if y % Xx == 0: 
print(y， “有 因子 , X) 
break 
XE 三 让 
else: # 没有 碰 到 break 才 会 执行 
print(y， 是 质数 ! ) 
该 例子 出 现 两 个 新 的 关键 字 break 与 else 子 句 。break 用 于 终止 当前 所 在 的 循环 。else 子 句 
于 处 理 当 break 没有 执行 的 情况 。 这 里 例子 不 太 直 观 ， 可 以 比较 接 下 来 两 个 例子 来 理解 。 假 
设 你 要 写 一 个 循环 用 于 搜索 列表 的 值 
下 面 的 方式 编写 该 任务 ; 
found = False 
while x and not found: 
match(x[0]): 
print(CHi) 
found = True 
else: 
区 三 蚤 中 引 
if not found: 
print(not found) 


这 个 任务 ， 您 可 以 使 用 else 子 句 进行 简化 : 


1 且 需 要 知道 在 离开 循环 后 该 值 是 否 已 经 找到 ， 可 能 会 


while x: 

计 match(x[0]): 
print(CHi) 
break 

区 全 

else: 
print(not found) 


可 以 看 出 else 子 句 不 仅仅 简化 代码 量 ， 而 且 代码 的 逻辑 更 加 清晰 。 


4.3 函数 


为 了 简化 和 重 构 代 码 ，Python 使 用 关键 字 def 定义 函数 。 形 式 是 : 
def 函数 名 (参数 ): 
函数 体 
具体 该 如 何 使 用 函数 ， 和 暂且 不 提 ， 看 看 Python 如 何 实现 斐 波 那 契 数列 ， 即 ao = 0 ai = 
二 Qn+2 三 Qnr 十 Qn+l: 
n=10 
ab=0,1 
while a < n: 
print(a, end=' ) 
ab =b, a+b 
print() 
该 代码 输出 结果 为 10 以 内 的 斐 波 那 契 数列 ; 
0112358 
符合 预期 结果 。 但 是 ， 如 果 我 们 想 要 输出 20 以 内 的 斐 波 那 契 数 列 ， 我 们 需要 复制 代码 并 
修改 终 值 n; 


while a < n: 
print(a, end=' ) 
ab =b, at+b 
print() 
这 样 也 太 朵 烦 了 ， 且 极 大 的 增加 了 代码 量 ， 有 没有 一 种 简洁 的 方式 呢 ? 当然 有 了 ，Python 
提供 了 函数 这 一 概念 用 于 封装 上 述 的 代码 即 : 
def fib(n): 
"打印 n 以 内 的 斐 波 那 契 数 列 序列 " 
ab=0,1 
while a < nm: 
print(a, end=' ) 
a, b = b, a+b 
print() 
这 样 可 以 使 用 fib(40) 打印 40 以 内 的 斐 波 那 契 数 列 。 
下 面 来 拆 解 一 下 fib 函数 :其 中 的 ".…" 表 示 文 档 字 符 串 〈 可 以 使 用 fib， doc ”或 者 help(fib) 
来 查看 ) ， 用 于 注解 函数 ， 辅 助 函 数 的 开发 者 与 使 用 者 了 解 函数 的 细节 。n 是 函数 fib 的 参数 。 


思 | 


此 函数 是 使 用 print 打印 结果 的 ， 返 回 值 是 None。 为 了 能 够 直接 获得 返 
关键 字 ; 
def fib(n): 
"作为 一 个 容器 返回 n 以 内 的 斐 波 那 契 数 列 序列 " 
res = 
ab=0,1 
while a < nm: 
res.append(al) 
a, b = b, a+b 
return res 


回 值 ， 需 要 借助 return 


函 数 的 参数 也 可 以 设置 默认 值 。 为 了 说 明 默 认 值 的 便利 ， 我 们 可 以 这 样 定 义 数 的 加 法 : 


def add(x,y): 
同 E 三 XH+yY 


return x+y 


# 测试 

print(add(1,2)) 
print(add(2,2)) 
print(add(3,2)) 


此 代码 测试 了 add 函数 的 运算 ， 而 这 些 运 算 有 一 个 特点 : y 的 取 值 均 为 2， 可 以 这 样 : 


def add(x,y=2): 
"计算 xy 
y 的 默认 值 为 2 


return x+y 


# 测试 

print(add(1)) 
print(add(2)) 
print(add(3)) 


该 代码 同样 实现 了 上 述 加 法 运算 ， 但 是 函数 的 参数 传 入 更 少 了 ， 有 部 分 缺 省 《因为 有 默认 


值 ， 故 而 可 以 不 传 参数 ) 。 像 Y=2 这 种 形式 的 参数 一 般 被 称 为 关键 字 参 数 ， 而 没有 默认 值 的 参 


数 x 被 称 为 位 置 参 数 。 位 置 参 数 在 传 参数 时 不 能 写 错 位 置 ， 且 位 置 参 数 一 定 要 放 在 关键 字 参 数 


的 前 面 ， 否 则 该 函数 的 定义 是 不 合法 的 。 


注意 : 关键 字 参 数 的 默认 值 只 会 执行 一 次 。 比 如 在 下 面 的 函数 调 


变 ; 
def f(a, L=[]): 
L.append(a) 
return 上 
# 测试 
print(f( 
print(f( 
print(f( 
输 强 LI H 结 
上] 
[1, 3] 
[1, 2, 3] 


1)) 
2) 
3)) 
日 


果 为 ; 


中，L 的 值 在 不 断 的 改 


如 果 您 想 要 共享 默认 值 ， 可 以 这 样 : 
def f(a, L=None): 
i Lis None: 
L= 
L.append(a) 
return 上 
函数 还 有 一 种 参数 设计 : 可 变 参数 。 即 类 似 于 ; 


def func(a, b = ", *args, “kwargs): 


中 args 表示 可 变 的 位 置 参数 列表 ，Kkwargs 为 可 变 的 关键 字 参 数字 典 。 在 变量 那 一 节 了 
解 了 * 的 妙用 ， 这 里 需要 重申 一 个 知识 点 : 
ab, c=range(7) 
print(type(b)) 
输出 结果 : 
<Class 'ist> 
即 赋值 的 打包 操作 是 以 list 来 存储 数据 的 ， 而 函数 则 是 以 tuple 进行 打包 的 : 
def sum_str(*strings): 
print(type(Sstrings)) 
TS 三 


for sin strings: res += S 
return res 
# 测试 
print(Sum_str(he' llo)) 
输出 结果 : 
<Class tuple'> 
hello 
*## 用 于 传 入 多 个 关键 字 参 数 : 
def test(D): 
printltype(D)) 
# 测试 
test(a='4) 
输出 结果 为 : 
<Class 'dict' > 


即 ** 是 以 dict 的 形式 进行 打包 的 。 


4.4 类 与 模块 


可 以 说 Python 中 的 函数 定义 了 功能 ， 行 为 而 类 不 仅仅 定义 了 功能 同时 也 定义 了 数据 。 类 
还 有 继承 与 多 态 的 思想 ， 使 用 关键 字 class 定义 。 
模块 可 以 将 类 与 函数 进行 再 次 封装 并 保存 在 .py 文件 2 
_init_ .py 文件 组 织 成 为 包 。 
关于 Python 的 类 与 模块 以 及 包 比 较 抽 象 ， 限 于 篇 幅 ， 本 章 便 不 做 展开 了 ， 您 自行 查阅 相 
关 资 料 即 可 。 本 书后 续 章 节 会 再 次 展开 讨论 。 


， 不 同 的 模块 之 间 又 可 以 通过 


4.5 本 章 小 结 


的 介绍 了 Python 中 的 变量 、 流 程控 制 与 函数 ， 略 略 提 及 类 、 模 块 与 包 。 本 章 以 
抛砖引玉 ， 在 后 续 的 章节 本 书 将 以 实例 来 说 明 如 何 使 用 Python 玩 转 计算 机 视 


| 
疯 烛 
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第 二 篇 数据 篇 
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前 面 的 章节 已 经 介绍 了 本 书 使 用 的 编程 基础 ， 本 章 将 介绍 如 何 利 用 之 前 的 知识 处 理 数据 集 。 
我 们 知道 诸如 Keras、MXNet、TensorFlow、Pytorch 各 大 深度 学 习 平 台 都 封装 了 自己 的 基础 数 
据 集 ， 如 MNIST、Cifar 等 。 如 果 要 在 不 同 平 台 使 用 这 些 数 据 集 ， 还 需要 了 解 它 们 是 如 何 组 织 
这 些 数据 集 的 ， 需 要 花费 一 些 不 必要 的 时 间 学 习 它 们 的 API。 我 们 为 何不 去 创建 属于 自己 的 数 
据 集 呢 ? 本 章 使 用 了 Numpy 与 Pytables 封装 了 一 些 深度 学 习 必 有 备 数据 集 。 


5.1 数据 集 X 的 制作 的 准备 工作 


本 小 节 将 探讨 如 何 将 MNIST、Fashion MNIST、Cifar10、Cifar100 封装 进 X.h5 之 中 。 这 些 
数据 集 的 简介 和 下 载 链接 如 下 ;: 

@MNIST: http:/yann.lecun.com/exdb/mnist。 

@Fashion MNIST: https:Wgithub.comy/zalandoresearch/fashion-mnist 。 

@Cifar10 与 Cifar100: https:Wwww.cs.toronto.edu/~kriz/cifar.html。 

@ 需 要 一 些 必 备 的 包 : struct、numpy、gzip、tarfile、os、time、Ppickle。 


本 小 节 的 数据 封装 大 都 基于 Bunch 结构 ， 下 面 来 简单 了 解 一 下 它 的 使 用 。 


5.1.1 好 用 的 Bunch 


Bunch 是 一 个 十 分 好 用 的 python 结构 ， 有 具体 是 代码 实现 很 简单 : 
class Bunch(dict): 
def _init_ (self args, 一 kwds): 
Super().，_init _ (args, 一 kwds) 
self. dict _ = self 


Bunch 主要 用 于 存储 松散 的 数据 ， 它 能 让 我 们 以 命令 行 参数 的 形式 创建 相关 对 象 ， 并 设置 


对 象 的 相关 属性 。 下 面 来 看 看 Bunch 的 魅力 ，Bunch 的 定义 利用 了 dict 的 特性 。 
下 面 我 们 构建 一 个 Bunch 的 实例 ，Tom 它 代 表 一 个 住 在 北京 的 54 岁 的 人 。 
Tom = Bunch(age="54", address="Beijing") # 存储 一 个 人 的 年 龄 、 居 住地 址 的 Bunch 实例 
print(Tom 的 年 龄 是 全 ， 他 住 在 fformat(Tom.age, Tom.address)) 
#print(x.age) # 获取 该 人 的 年 龄 
#x.address # 获取 该 人 的 居住 地 址 
结果 显示 : 
Tom 的 年 龄 是 54， 他 住 在 Beijing. 
由 于 Bunch 继承 自 dict 类 ， 我 们 可 以 自然 而 然 获得 大 量 与 dict 相关 操作 ， 如 对 于 键 值 / 属 
性 值 的 遍历 ， 或 者 简单 查询 一 个 属性 是 否 存在 。 同 时 我 们 还 可 以 直接 对 Tom 增加 属性 ， 比 如 : 
Tom.sex = male' 
print(Tom) 
结果 为 : 
{age': 54,， address: 'Beijing,，sex': male) 
你 也 许 会 奇怪 ，Bunch 结构 与 dict 结构 好 像 没 有 太 大 的 的 区 别 ， 只 不 过 是 多 了 一 个 点 号 运 
算 ， 那 么 ，Bunch 到 底 有 什么 神奇 之 处 呢 ? 下 面 以 一 个 树 式 结构 的 数据 来 说 明 : 
T=Bunch # 类 重 命名 以 简化 书写 
t=T(left=Tlleft='avright='b), right=Tlleft='c)) # 树 数 据 
t 是 一 个 树 数据 结构 ， 它 的 结构 见 图 $.1 所 示 。 


图 $.1 树 数 据 


接着 ， 便 可 以 通过 如 下 方式 来 使 用 ft: 

tleft # 获 取 t 的 左边 数据 

结果 如 下 : 

fleft: aa, right: 'b} 

我 们 也 可 以 直接 像 下 面 的 方式 调 取 更 多 信息 : 
t.left.right 

即 : 


除 此 之 外 ， 我 们 也 可 以 通过 键 的 方式 获取 数据 ; 
谍 left][rigFt] 
为 了 判断 某 一 个 数据 是 否 存在 于 t+ 中， 可 以 使 用 如 下 命令 : 


"left" in tright 
当然 你 也 可 以 通过 如 下 方式 打印 所 有 信息 : 
forfirst in tt 


print( 第 一 层 的 节点 : ,first) 


接 下 


5.1. 


for second in t[first]: 
print(\t 第 二 层 的 节点 : ,second) 
for node in t[firstl[secondj]: 
print(\tt 第 三 层 的 节点 : ,node) 


第 一 层 的 节点 : left 
第 二 层 的 节点 : left 
第 三 层 的 节点 : a 
第 二 层 的 节点 : right 
第 三 层 的 节点 : b 

第 一 层 的 节点 : right 
第 二 层 的 节点 : left 
第 三 层 的 节点 : 


介绍 了 这 么 多 ， 我 想 大 家 应 该 对 Bunch 有 了 一 个 大 体 的 印象 ， 这 些 印象 可 以 帮助 我 们 理 


来 我 要 介绍 的 主 菜 : X.h5 。 


2 MNIST 的 处 理 


角 


| 


HE 


接 下 来 先 定义 一 个 类 ， 用 来 处 理 MNIST 与 Fashion MNIST 数据 集 。 这 两 个 数据 集 都 是 以 


如 下 


ubyte.gZz，tl0Kk-labels-idxl-ubyte.gz。 依 志 


的 含 


搬 式 来 存储 的 : train-images-idx3-ubyte.gz，train-labels-idxl-ubyte.gz，tl0k-images-idx3- 


中 压缩 包 的 文 伟 


F 名 我 们 便 可 以 很 容易 猜 到 它们 各 自 代 表 


义 。 为 了 代码 的 可 复 用 性 ， 将 创建 文件 mnistpy 并 写 入 如 下 内 容 : 


import struct 
import numpy as np 
import gzip 

人 ## MNIST 类 

class MNIST: 


def _init_(self root namespace, train=True): 


(MNIST hangdwritten digits dataset from http:/Myann.lecun.comyexdbymnist) 


(A dataset of Zalando's article images consisting of fashion products， 


a drop-in replacement of the original MNIST dataset from 


https:/Wgithub.comy/zalandoresearchVfashion-mnist) 


Each sampleis an image (in 2D NDArray) with shape (28, 28). 


参数 


root : 数据 根 目 录 ， 如 EVData/Zipy/ 


namespace: mnist or fashion_mnist' 


train : bool default True 


Whether to load the training or testing set. 


self_ train = train # 以 此 判断 是 否 是 训练 数据 集 


selfnamespace = namespace #'mnist 或 者 fashion_mnist 

root = root + namespace 

self_train_data = f{rootytrain-images-idx3-ubyte.gz' # 训练 数据 集 文件 名 

self _train_label = f{rootytrain-labels-idx1-ubyte.gz # 训练 数据 集 的 标签 文件 名 
self test_data = f{rootMt10k-images-idx3-ubyte.gz ，# 测试 数据 集 文件 名 
self_test label = f{rootytl0k-labels-idx1-ubyte.gz' # 测试 数据 集 的 标签 文件 名 
self_get_datal() 

## 获取 数据 信息 的 函数 

def get_ data(self): 


官方 网 站 是 以 `[offsetjl[typel[valuel[description] 的 格式 封装 数据 的 ， 因 而 我 们 使 用 `struct,unpack 


if self_ train: 
data, label = self_ train_data, self_ train_label # 获得 训练 数据 集 名 称 及 其 标签 名 称 
else: 


data, label = self_ test data, self test label # 获得 测试 数据 集 名 称 及 其 标签 名 称 
# 获取 标签 信息 
with gzip.open(label，rb) as fin: 

struct.unpack('>ll ,fin.read(8)) # 参考 数据 集 的 网 站 ， 即 offset=8 

selflabel = np.frombuffer( 

fin.read0, dtype=np.uint8).astype(np.int32) # 获得 数据 集 的 标签 

# 获取 图 像 信息 
with gzip.open(data rb') as fin: 

shape = struct.unpack(C > fin.read(6))C] 

data = np.frombuffer(fin.read(0, dtype=np.uintg9) 

selfdata = data.reshape(shape) 


代码 的 实现 十 分 简单 ， 具 体 细 节 可 参考 数据 集 的 官方 介绍 。 下 一 小 节 接 着 处 理 Cifar 数据 


呈 
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5.1.3 Cifar- 的 处 理 


Cifar 数据 集 的 压缩 包 是 tar.gz 文件 ， 此 时 需要 将 其 解压 方 可 进一步 处 理 ， 为 此 定义 函数 ; 
import tarfile # 载 入 压缩 包 处 理 库 

# 解 讨 函数 

def extractall(tar name, root): 


解压 tar 文件 并 返回 路 径 
root: 解压 的 根 目录 


With tarfile.open 人 tar_name) as tar: 
tarextractalltroot “ # 解压 全 部 文件 


names = targetnames() # 获取 解压 后 的 文件 所 在 目录 


return names 
同样 ， 我 们 将 其 封装 进 cifar.py 文件 中 ， 其 中 Cifar 类 的 定义 如 下 : 
class Cifar(dict): 


def _init_(self root namespace，*args, 太 kwds): 
”CIFAR image classification dataset from https/www.cstoronto.edu/~kriz/cifarhtml 
Each sampleis an image (in 3D NDArray) with shape (3, 32, 32). 
Parameters 
meta : 保存 了 类 别 信息 
root : str 数据 根 目录 
namespace : cifar-10' 或 “cifar-100 
train : bool, default True ， 是 和 否 载 入 训练 集 


Super(0.，、jinit_(*args, 六 kwds) 
self_，dict = self 
selfroot = root 
selfnamespace = namespace # 名 称 空间 
self_extract() # 解压 数据 集 并 载 入 到 内 存 
self_read_batch(0 # 获取 我 们 需要 的 数据 形式 
def extract(selH: 
tar_name = ffselfrootj{selfnamespace}-python.targz # 文件 名 
names = extractallttar name, selfroobt) # 解压 后 数据 所 在 目录 
print( 载 入 数据 的 字典 信息 : ) 
start = timetime() # 开始 计时 
for name in names: 
path = ffselfrootiname} # 获取 子 文件 名 或 者 子 目录 名 
if os.path.isfile(path): # 判断 是 否 为 文件 
if not path.endswith(.html): # 是 否 为 html 文件 
k = name.split(/)[- 人 人 # 拆 分 path 
放 path.endswith(.meta): # 元 数据 


k = 'meta' 
elif path.endswith(.txt~ 洲 ## 跳 过 .txt~ 文件 
continue 


with open(path,'rb') as fp: # 打开 文件 
self[k] = pickleload(fp, encoding='bytes') # 载 入 数据 到 内 存 
##time.sleep(0.2) 
t= intttimetime( - starb *'-' # 计时 结束 
print(t end=”) 
print(CWn 载 入 数据 的 字典 信息 完毕 ! ) 
def _read_batch(se 由 : 


if self,namespace == cifar-10: #cifar 10 
selftrainX = np.Concatenate([ 


selfffdata_batch_{str())][b'data] foriin range( 6)]).reshape(-1 3 32, 32) 
selftrainY = np.concatenate( 


# 训练 集 图 片 


[np.asanyarray(self[fdata_batch_{str() 门 [blabels]) foriin range( 6)]) 
# 测试 集 图 片 
selftestX = selftest_batch[b'data'].reshape(-1 3 32, 32) 


selftestY = np.asanyarray(selftest_batch[b'labpels]) # 测试 集 标签 
elif selfnamespace == cifar-100: #cifar 100 


# 训练 集 标签 


selftrainX = selftrain[b'data'].reshape(-1 3, 32 32) # 训练 集 图 片 
selftrain_fine_labels = np.asanyarray( 


selftrain[b'fine_labelsS]) # 子 类 标签 
selftrain_coarse_labels = np.asanyarray( 
selftrain[b'coarse_labels]) # 超 类 标签 
selftestX = selftest[b'data'].reshape(-1 3, 32 32) # 测试 集 图 片 
self'test fine_labels = np.asanyarray( 
selftest[b'fine labelsS]) # 子 类 标签 
self'test_coarse_labels = np.asanyarray( 
selftest[b'coarse_labels]) # 超 类 标签 


在 Cifar 类 中 引用 了 Bunch 结构 ， 方 便 我 们 更 加 友好 的 处 理 数 据 集 。 至 此 各 个 数据 集 我 们 
都 已 经 处 理 好 了 ， 先 看 看 具体 的 效果 如 何 ? 


5.1.4 如 何 使 用 MNIST 与 Cifar 类 


为 了 让 代码 的 复 用 性 更 高 ， 将 上 面 的 mnist.py 与 cifar.py 文件 一 起 放 入 utilsy/tools 文件 夹 下 
以 此 来 创建 一 个 工具 包 。 下 面 便 可 很 容易 导入 它们 并 加 以 使 用 : 


from utils.tools.mnist import MNIST # 载 入 MNIST 类 
from utilstools.cifar import Cifar # 载 入 Cifar 类 


将 MNIST、Fashion MNIST、Cifar 10、Cifar 100 均 放 置 在 同一 目录 下 : 
root ='EVData/Zip/ # 数据 所 在 目录 
下 面 来 看 看 如 何 使 用 这 两 个 类 ? 首先 是 MNIST': 
mnist train = MNIST(root 'mnist, True) # 训练 数据 集 
mnist test = MNIST(root 'mnist, True) # 测试 数据 集 
接着 ， 便 可 以 查看 数据 的 shape 与 标签 〈 以 训练 集 为 例 ) 
mnist_ test.dqata.shape, mnist_train.lapel 
结果 为 : 
((60000, 28, 28), array([2 0 4 … 5 6 8])) 
可 以 看 出 训练 集 有 60000 个 样本 ， 每 张 图 片 的 尺寸 均 为 28x28 的 灰 度 图 片 。 关 于 图 片 的 可 
视 化 与 计算 这 里 暂且 不 提 。Fashion MNIST 的 使 用 与 MNIST 相似 ， 仅 仅 需 要 将 namespace 改 为 
fashion_mnist。MNIST 的 类 很 简单 ， 但 是 Cifar 类 又 该 如 何 操作 呢 ? 
实 Cifar 类 的 使 用 也 是 很 简单 的 : 


cifar10 = Cifar(root cifar-10) ##cifar0 


结果 为 : 
载 入 数据 的 字典 信息 : 


载 入 数据 的 字典 信息 完毕 ! 
由 于 Cifar 是 Bunch 结构 的 数据 ， 所 以 有 : 
cifar10.keys() 
结果 为 : 
dict_keys([root,， namespace',， data_batch_4，test_batch，'data_batchn_3，meta,，'data_batch_2， 
'data_batch_5，'data_batch 1， trainX，trainY，testX，'testY']) 
可 以 看 出 这 里 面 有 许多 我 们 需要 的 信息 ， 但 是 我 们 仪 仅 考虑 : 
@'trainX', trainY': 训练 数据 的 图 片 与 标签 
@ testX', testY': 测试 数据 的 图 片 与 标签 
e@ meta: 标签 的 名 称 列 表 等 
调 取 这 些 信 息 十 分 方便 〈 可 以 参考 5.1.1 节 ) : 
cifar10.meta 


{bnum_cases_per_batch': 10000， 
blabel_names': [bairplane， 
bautomobile， 

b bird ， 
b'cat， 
b' deer， 

b'dog ， 
bfrodg ， 
b'horse， 

b' ship， 
b'truck'], 

b'num_vis: 3072} 


We 


通过 英文 名 称 很 容易 判断 它们 各 自 的 含义 ， 不 过 我 们 仅仅 需要 知道 标签 名 称 列 表 ， 


其 他 的 
可 以 忽略 : 


存储 


为 了 方便 管理 和 调用 数据 引 
https:/github.com/DataLoaderX/datazone/tree/masterlab/utils/tools) ， 将 cifar 的 


label names = cifar10.meta[b'label_names'] 


至 此 准备 工作 已 经 完成 ， 接 下 来 进入 X 数据 集 的 制作 环节 1! 


$.2 数据 集 X 的 制作 


邮 


， 将 上 面 的 MNIST 与 Cifar 做 了 一 定 的 调整 《详细 见 : 


图 片 34，32，32) 


区 式 转换 为 (32，32，3)， 并 定义 一 个 DataBunch 类 来 打包 上 面 介绍 的 所 有 数据 集 : 


class DataBunch(Bunchy): 


将 多 个 数据 集 打 包 为 Bunch 


def _init (self root *args 六 kwds): 
Super(0.、jinit _(*args xxkwds) 
B=Bunch # 重 命 
selfmnist = B(MNIST(root 'mnist)) ##mmnist 
selffashion_mnist = B(MNIST(root fashion_mnist)) ##fashion_mnist 
selfcifar10 = B(Cifar(root cifar-10)) 
selfcifar100 = B(Cifar(root "cifar-1007) 
下 面 便 可 以 直接 利用 DataBunch 类 来 调用 上 述 介绍 的 数据 集 了 。 
db = DataBunch(root) 
我 们 可 以 通过 `key` 查看 封装 的 数据 集 ; 
db.keys(0 


结果 : 
dict_keys([mnist,， fashion_mnist，cifar10，cifar1001]) 


5.2.1 数据 集 的 可 视 化 与 简介 


前 面 的 内 容 一 直 都 是 如 何 处 理 数 据 的 ， 但 是 数据 具体 长 什么 样子 ， 可 以 通过 matplotlib 来 
可 视 化 。 先 定义 一 个 可 视 化 的 函数 : 
from matplotlib import pyplot as plt 


import numpy as np 
def show_imgs(imgs): 


展示 多 张 图 片 


n = imgs.shape[Ol # 图片 的 个 数 
hw=4intn/4) # 图 片 队列 的 行 数 与 列 数 
figs = pltsupplots(h, w figsize=(5 9) 
K = np.arange(m).reshape((h, WwW)) 
foriin range(h): 
forj in range(w): 
img = imgs[K[i, 站 # 取出 一 张 图 片 并 放 入 指定 位 置 
figs[iU].imshow(kimg) # 显示 图 片 
figs[i][].axes.get_xaxis(.set_visible(False) # 隐藏 坐标 轴 x 
figs[i][].axes.get_yaxis().set visible(False) # 隐藏 坐标 轴 y 
pltshow(0 
先 从 MNIST 的 训练 集中 取出 16 张 图 片 进行 可 视 化 : 
imgs = db.mnisttrainX[:16] # 取出 16 张 图 片 
show_imgs(imgs) 
结果 ， 如 图 5.2 所 示 。 


图 5$.2 MNIST 示例 


同样 ， 对 FASHION MNIST 进行 可 视 化 : 
imgs = db.fashion_mnisttestX[16] # 取出 16 张 图 片 
show_imgs(imgs) 


结果 ， 如 图 $.3 所 示 。 


图 $.3 fashion mnist 示例 


Cifar10 的 可 视 化 : 
imgs = db.cifarl0.testX[:16] # 取出 16 张 图 片 
show_imgs(imgs) 


结果 ， 如 图 9.4 所 示 。 


图 $.4 cifar10 示例 


Cifar10 的 可 视 化 : 
imgs = db.cifar100.testX[:16] # 取出 16 张 图 片 
show_imgs(imgs) 


结果 ， 如 图 $.5 所 示 。 


图 5.5 cifar100 示例 
虽然 我 们 一 黎 了 数据 集 的 样子 ， 但 是 对 其 做 简要 的 介绍 还 是 十 分 有 必要 的 。MNIST 数据 


集 可 以 说 是 深度 学 习 中 的 hello world 级 别 的 数据 集 ， 很 多 教程 都 是 把 它 作 为 入 门 级 的 数据 集 。 
不 过 有 些 人 可 能 对 它 还 不 是 很 了 解 ， 下 面 简单 的 了 解 一 下 。 

MNIST 数据 集 来 自 美 家 标准 与 技术 研究 所 (National Institute of Standards and 
Technology, NIST) 训练 集 (training seb 来 自 250 个 不 同人 【其 中 50% 是 高 中 学 生 ， 剩 余 的 来 自 
人 口 普查 局 (the Census Bureau 的 工作 人 员 ) 手写 的 数字 构成 。 测 试 集 (test seb 也 是 同样 比例 的 
手写 数字 数据 MNIST 是 NIST 的 子 集 ，60000 个 样本 作为 训练 集 ，10000 个 样本 作为 测试 集 。 
同时 MNIST 的 数字 图 像 已 被 大 小 规范 化 , 并 以 固定 大 小 的 图 像 居 中 。 
虽然 图 像 分 类 数据 集中 最 常用 的 是 手写 数字 识别 数据 集 MNIST， 但 大 部 分 模型 在 MNIST 
上 的 分 类 精度 都 超过 了 95% 。 为 了 更 直观 地 观察 算法 之 间 的 差异 ， 我 们 可 以 使 用 一 个 图 像 内 容 
更 加 复杂 的 数据 集 Fashion-MNIST。Fashion-MNIST 和 MNIST 一 样 ， 也 包括 了 10 个 类 别 ， 分 
别 为 : fshirt (T 恤 ) 、trouser〈 裤 子 ) 、pullover 〈 套 衫 ) 、dress〈 连 衣 衬 ) 、coat 〈 外 套 ) 、 
sandal (凉鞋 ) 、shirt 〈 衬 衫 ) 、sneaker 〈 运 动 鞋 ) 、bag 〈 包 ) 和 ankle boot (短靴 ) 。 
Fashion-MNIST 的 存储 方式 和 MNIST 是 一 样 的 ， 故 而 ， 我 们 可 以 使 用 相同 的 方式 对 其 进行 处 
理 。 


cifar-10 和 CIFAR-10 是 由 Alex Krizhevsky, Vinod Nair 和 Geoffrey Hinton 收集 的 8000 万 
个 微小 图 像 的 子 集 (http://people.csail.mitedu/torralba/tinyimages/)。 其 中 cifar-10 数据 集 由 
10 类 32 x 32 彩色 图 像 组 成 ， 每 类 有 6 000 张 图 像 。 被 划分 为 50 000 张 训练 图 像 和 10 000 张 
测试 图 像 。 而 Cifar100 则 分 为 10 个 粗糙 类 别 和 100 个 精细 类 别 。 


5.2.2 数据 集 X 的 封装 


虽然 定义 了 DataBunch 类 ， 但 是 ， 这 样 并 没有 解决 本 章 提 出 的 主题 : 让 数据 集 更 加 友好 ? 
为 此 ， 我 们 需要 将 数据 集 进 行 序列 化 ， 并 将 其 命名 为 数据 集 又 。 对 于 Python 来 说 pickle 是 一 
个 很 不 错 的 序列 化 工具 : 
import pickle 
def write _bunch(path): 
# path:: 写 入 数据 集 的 文件 路 径 


With open(path，wb') as fp: 
pickle.dump(db, fp) 
root = 'EVData/Zip/ # # 数据 集 序列 化 的 目录 
path = f{rootjXjson # 写 入 数据 集 的 文件 路 径 ， 也 可 以 是 .dat 文件 
write _bunch(path) 
这 样 以 后 就 可 以 直接 复制 f{froot}X.dat 或 fP{froot}X.json' 到 你 可 以 放置 的 任何 地 方 ， 然 后 
你 就 可 以 通过 load 函数 来 调用 MNIST、EFashion MNIST、Cifar 10、Cifar 100 这 些 数 据 集 。 
反 序 列 化 : 
def read_bunch(path): 
with open(path，rb') as fp: 
bunch = pickle.load(fp) # 即 为 上 面 的 DataBunch 的 实例 
return bunch 
db = read_pbunch(path) # path 即 你 的 数据 集 所 在 的 路 径 
考虑 到 JSON 或 者 dat 对 于 其 他 编程 语言 的 不 太 友好 ， 下 面 将 介绍 如 何 将 Bunch 数据 集 存 
储 为 HDF5 格式 的 数据 。 


由 
YI 
相 一 


和 


5.2.3 Bunch 转换 为 HDF5 文件 : 高 效 存 储 数 据 集 X 


PyTables 是 Python 与 HDF5 数据 库 / 文 件 标准 的 结合 。 它 专门 为 优化 IO 操作 的 性 能 、 最 
大 限度 地 利用 可 用 硬件 而 设计 ， 并 且 它 还 支持 压缩 功能 。Pytables 为 数据 的 可 移植 提供 了 极 大 
的 便利 ， 下 面 我 们 来 见识 它 的 魅力 ! 下 面 的 代码 均 是 在 Jupyter NoteBook 下 完成 的 : 


import tables as tb 


import numpy as np 
def bunch2hdf5(rootf): 


这 里 我 仅仅 封装 了 Cifar1o0、CifarI00、MNIST、Fashion MNIST 数据 集 ， 
使 用 者 还 可 以 自己 追加 数据 集 。 


db = DataBunch(root) 
filters = tb.Filters(complevel=7 shuffle=False) 
# 这 里 我 采用 了 压缩 表 ， 因 而 保存 为 .h5c 但 也 可 以 保存 为 .h5、 
With tb.open_file(ffrootjX.h5c，w, fiters=filters title='XinetW's dataset') as h5: 
for name in db.keys(): 
h5.create_group( 和 ,name' title=f{db[name].ur)) 
if name != cifar100 
h5.create_array(h5.root[name]l trainX', db[name]trainX, title=' 训 练 数 据 ) 
h5.create_array(h5.root[name]l trainY, db[nameljtrainyY, title=' 训 练 标 签 ) 
h5.create_array(h5.root[name]， testX, db[name]testX, title= 测试 数据 ) 
h5.create_array(h5.root[name]l， testY, db[name]testY, title= 测试 标 签 ) 
else': 
h5.create_array(h5.root[name]l trainX', db[name]trainX, title=' 训 练 数 据 ) 


h5.create_array(h5.root[namel, testXx, db[name]:testX, title= 测试 数据 ') 
h5.create_array(h5.root[name], train_coarse _labels, db[name]:train_coarse_labels title= ' 超 类 


训练 标签 ) 
h5.create_array(h5.root[name]l， test_coarse_labels, db[name]test_coarse_lapels title= ' 超 类 测 


试 标签 ) 
h5.create_array(h5.root[namej], train_fine_ labpels, db[name]train_fine_lapels title=' 子 类 训练 
标签 ) 


h5.create_array(h5.root[name], test_ fine _labels, db[name]jtest fine_labels, title= ' 子 类 测试 标 
光洁 ) 
for kin [cifar10，cifar1001]: 
for name in dp[kj.meta.keys(): 
name = name.decode() 
iname.endswith(Cnames'): 
label_names = np.asanyarray([lapel_name.decode( forlabel_name in 
db[kl.meta[name.encode(O]]) 
h5.create_array(h5.root[kl, name, label_names' title= 标签 名称) 
我 们 可 以 自如 的 使 用 数据 集 X 了 。 
root = 'EVData/Zip/，#X 所 在 目录 
bunch2hdf5(rootb # 将 db(Bunch) 转换 为 HDF5 文件 
h5c = tb.open _file(EVData/Zip/X.h5c) # 载 入 数据 集 X 
看 看 JSON 与 HDF5 文件 大 小 : 
import os 
h5_size = os.path.getsize(EVData/Zip/X.h5 /1e6 # 文件 的 大 小 
json_size = os.path.getsize(E:/Data/Zip/Xjson')/1e6 # 单 位 为 M 


h5_size, json_size 


结果 : 
(479.697264. 852.202724) 
保存 相同 的 内 容 ， 此 时 JSON 比 HDF5 大 了 近 1.8 倍 ! 不 仅 如 此 ，HDF5 载 入 数据 的 速度 
也 是 很 快 的 : 
2%9%6time 
arr = h5.root:cifar100.trainX.read() # 读 取 数 据 十 分 快速 
结果 : 
Wall time': 125 ms 
如 果 你 想 要 像 之 前 db 那样 获取 你 想 要 的 数据 信息 ， 也 是 十 分 简单 的 。 


$.3 X.hs 的 使 用 说 明 


下 面 以 Cifar100 为 例 来 展示 本 章 自 创 的 数据 集 X.h5《〈 我 将 X 数据 集 上 传 到 了 百度 云 盘 
「 链接: https:Wpan.baidu.com/s/12jzaJ2d2kvHCXbQa_HO6YQ 提取 码 : 2clg」 可 以 下 载 直接 使 
;， 亦 可 你 自己 生成 ， 不 过 我 推荐 自己 生成 ， 可 以 加 深 理解 如 何 使 用 Python 处 理 数 据 集 ) 。 


root = 'datasets/X.h5'”# X 数据 集 所 在 路 径 

h5 = tb.open_file(root) # 获取 X 数据 集 

h5.root “ # 查 看 X 所 包含 的 数据 集 

结果 为 : 

/ (RootGroup) "Xinet's dataset' children := [cifar10 (Group)，cifar100 (Group) fashion_mnist (Group)， 


mnist (Group)] 

以 相对 复杂 的 cifar100 数据 集 为 例 来 说 明 如 何 使 用 数据 集 X? 
cifar100 = h5.rootcifar100 

cifar100 

结果 为 : 

/cifar100 (Group) 'https:Mwww.cstoronto.edu/~kriz/cifarhtml 


children := [coarse lapel_names' (Array), fine_label_names' (Array)，testX' (Array)，test_coarse_labels' 
(Array)，test fine_labels (Array)， trainX' (Array)， train_coarse_labels (Array)， train_fine labels (Array)] 
'coarse_label_names' 指 的 是 粗 粒度 或 超 类 标签 名 ，Yine_label_names' 则 是 细 粒 度 标 签名 。 可 
以 使 用 read() 方 法 直接 获取 你 需要 的 信息 ， 也 可 以 使 用 索引 的 方式 获取 : 
coarse_label_names = cifar100.coarse_label_names[] 
# 或 者 


coarse _label names = cifar100.coarse lapel_names.read() 


coarse_label_names.astype(Sstr ) 
结果 为 : 
array([aquatic mammals, fish，flowers，food_ containers 


fruit and_ vegetables，household_electrical_devices， 
'household _ furniture，insects，large_carnivores 
arge_man-made_outdoor thingS，'large_natural_outdoor_ scenes 
arge_omnivores_and_herbivores, medium_mammals， 
non-insect_invertebrates，people，reptiles，smallmammals， 
trees，Vvehicles 1，vehicles 2] dtype='<U30 ) 

testX 与 rainX' 分 别 代 表 测 试 数据 和 训练 数据 ， 而 其 他 的 节点 所 代表 的 含义 也 是 类 似 的 。 

例如 ， 可 以 看 看 训练 集 的 数据 和 标签 : 
trainX = cifar100.trainX 


train_coarse labels = cifar100.train_coarse _labels[] 
结果 为 : 
array([11 15 4 .8 7 1) 
数据 也 可 以 通过 下 面 的 形式 获取 ; 
h5.get_node(h5c.rootcifarl0O trainX ) 
更 甚 者 ， 我 们 可 以 直接 定义 友 代 器 来 获取 数据 : 
def data_iter(X Y, batch_size): # 定义 一 个 迭代 器 

n = Xnrows # 样 本数 

idx = np.arange(n) # 样本 索引 

计 X.name.startswith(train): # 判断 是 否 为 训练 集 

np.random.shuffle(idx) # 训练 集 需 要 打 乱 


foriin range(0O n,batch_size): 
k = idx[i: min(n,i + batch_size)l,tolist0 # 批量 的 索引 
yield np:take(X k 0 np.take(Y k 0) # 取 出 一 个 批量 数据 
使 用 友 代 器 : 


forx yin gata_iter(trainX, train_coarse_labels 8): 


print(x.shape, y) 
break 
结果 为 ; 
有 从 下 闪电 引 
更 多 使 用 详情 见 : 使 用 友 代 器 获取 Cifar 等 常用 数据 集 : 
https:/yq.aliyun.comyarticles/6143322spm=a2c4e.11133433.0.0.30543312VvFsboY 
为 了 更 加 形象 的 说 明 该 数据 集 ， 我 们 将 其 可 视 化 : 


import numpy as np 


from matplotlib import pyplot as plt 
%matplotlib inline 
pltrcParams[fontsans-serif] = [SimHei] # 指定 默认 字体 
pltrcParams['axes.unicode_minus'] = False # 解决 保存 图 像 是 负 号 “-' 显示 为 方块 的 问题 
def show_imgs(imgs, labels): 
# 展示 多 张 图 片 
n = imgs.shape[0] 
hw=4int(nyv4) 
fig, ax = pltsubplots(h, w, figsize=(7, 7) 
K = np.arange(n).reshape((h  w) # 显示 的 图 片 规格 
names = np.asanyarray([cifarfine_label_namesllabel] 
forlabel in labelsl, dtype='U) 
names = names.reshape((h WwW) # 标签 名 称 
foriin range(h): 
forj in range(w): 
img = imgs[kKL, 中 
ax[[U].imshow(img) 
ax[i][U].axes.get_yaxis().set_ visible(False) 
ax[i][U].axes.set_xlabel(names[i 中 ) 
ax[i[].set_xticks() 
pltshow(0 
为 了 高 效 使 用 数据 集 X.h5， 使 用 欠 代 器 的 方式 来 获取 它 。 一 般 地 ， 在 深度 学 习 领 域 ， 大 
都 将 数据 集 以 批量 的 形式 读 取 : 


class Loader 


L 为 该 类 的 实例 


len(b): 返 回 batch 的 批 数 
iter(b): 即 为 数据 迭代 器 
Return 


可 迭代 对 象 (numpy 对 象 ) 


def _init_ (self X Y batch_size, shuffle): 


X, Y 均 为 类 numpy 


selfX = X # 特征 
selfY = Y # 标签 
selfbatch_size = batch_size # 批量 大 小 
selfshuffle = shuffle # 是 否 打 乱 
def _iter_(self): 
n = len(selfX) # 样本 数目 
idx = np.arange(n) # 样本 索引 
if selfshuffle: 
np.random.shuffle(idx) 
for kin range(0, n, selfpatch_size): 
K = idx[kmin(k + selfbatch_size, mtolistO) 
yield np.take(selfX K 0 np:take(selfY K 0) # 取出 批量 
def _len__(self): 
return int(np.ceil(len(self.X) / self.batch_size)) 
最 后 ， 看 看 效果 如 何 : 


import tables as tb 


import numpy as np 
batch_size = 512 
cifar = h5.root.cifar100 
train_cifar = Loader(cifartrainX, cifartrain fine_labels, batch_size, True) 
for imgs labels in iter(ttrain_cifan: 
break 
show_imgs(imgs[16], labels[:16]) 
结果 展示 ， 如 图 5.6 所 示 。 


图 $.6 展示 一 个 批量 的 图 片 


$.4 本 章 小 结 


上 面 的 API 设计 和 不 断 改 进 的 过 程 中 ， 可 以 获得 学 习 和 创造 的 喜悦 。 上 面 所 介绍 的 X.h5 
数据 集 不 仅仅 是 那些 数据 集 的 封装 ， 你 还 可 以 继续 添加 自己 的 数据 集 到 数据 X 中 。 同 时 ， 类 
Loader 十 分 有 用 ， 它 定义 了 一 个 标准 ， 一 个 可 以 延 拓 到 处 理 其 他 深度 学 习 的 数据 集中 去 。 


第 6 章 CASIA 及 机 和 在 绪 手 写 汉 字库 


本 章 通 过 Python 解析 CASIA 脱 机 和 在 线 手写 汉字 库 中 的 单字 库 ， 主 要 从 以 下 两 个 方面 进 
行 展开 : 
@ 单 字库 的 特征 的 解码 、 序 列 化 与 反 序 列 化 ; 
@ 单 字库 的 图 片 的 解码 、 序 列 化 与 反 序 列 化 。 


6.1 CASIA 手写 汉字 简介 


CASIA-HWDB 〈CASIA-OLHWDB ) 数据 库 由 中 科 院 自动 化 研究 所 在 2007-2010 年 间 收 集 ， 
包含 1020 人 书写 的 脱 机 《联机 ) 手写 中 文 单字 样本 和 手写 文本 ， 用 Anoto 笔 在 点 阵 纸 上 书写 
后 扫描 、 分 割 得 到 。 

本 数据 库 经 签约 授权 后 可 免费 用 于 学 术 研 究 目 的 ， 但 用 于 商业 目的 需 付 费 。 学 术 研 究 的 用 
途 包括 手写 文档 分 割 、 字 符 识 别 、 字 符 串 识别 、 文 档 检 索 、 书 写 人 适应 、 书 写 人 鉴别 等 。 
如 果 需 要 使 用 该 数据 集 需 要 提交 申请 书 : 


@ CANSIA-HWDB:http:Wwww.nlpr.ia.ac.cn/databases/download/CASIA- 
HWDB-Chinese.pdf 


@ CANSIA-OLHWDB:http:Wwww.nlpr.ia.ac.cn/databases/download/CASIA- 
OLHWDB-Chinese.pdf 
数据 集 的 下 载 网 址 : http:/www.nlpr.ia.ac.cn/databases/handwriting/Download.html。 
在 申请 书 中 介绍 了 数据 集 的 基本 情况 : 
CASIA-HWDB 手写 单字 样本 分 为 三 个 数据 库 : HWDB1.0~1.2。 手 写 文本 分 为 三 个 数据 库 : 


了 WDB2.0~2.2。 


数 寺 


CASIA-OLHWDB 手写 单字 样本 分 为 三 个 数据 库 : OLHWDB1.01.2， 手 写 文本 也 分 为 三 个 
四 库 : OLHWDB2.0~2.2。 
仅 仅 考虑 CASIA Online and Offline Chinese Handwriting ， Databases 


Chttp:Wwww.nlpr.ia.ac.cn/databases/handwriting/Download.html ) 下 载 页 提供 的 手写 单字 数据 ， 
并 且 下 载 到 了 root 目录 下 : 


import os 

root = 'EJOCR/CASIA/data' # CASI 数据 集 所 在 根 目录 
os.listqir(root) 

输出 结果 : 
[HWDB1.0trn.zip ， 
"HWDB1.0trn_gnt.zip ， 
"HWDB1.0tst.zip ， 
HWDB1.0tst_gnt.zip ， 
"HWDB1.1trn.zip， 
"HWDB1.1trn_gnt.zip ， 
'HWDB1.1tst.zip ， 
HWDB1.1tst_gnt.zip， 
'OLHWDB1.0test_pot.zip ， 
'OLHWDB1.0train_pot.zip ， 
'OLHWDB1.0trn.zip ， 
'OLHWDB1.0tst.zip ， 
'OLHWDB1.1trn.zip ， 
'OLHWDB1.1trn_pot.zip ， 
'OLHWDB1.1tst.zip ， 
'OLHWDB1.1tst_pot.zip] 


CASIA 单字 数据 库 不 仅仅 提供 了 单字 数据 的 图 片 还 提供 了 这 些 单 字数 据 的 特征 ， 并 依 


fileFormat-mpf.pdf(http:Wwww.nlpr.ia.ac.cn/databases/download/feature_data/FileFormat-mpf.pdf) 
格式 来 保存 其 特征 。 简 单 点 说 ， 每 个 单字 的 特征 均 以 ,mpf 形式 保存 手工 特征 。 以 _pet 结尾 的 压 
缩 文 件 保 存 了 在 线 单字 的 图 片 信 息 ， 而 以 -gnt 结 尾 的 压缩 文件 则 保存 了 离线 单字 的 图 片 信 息 。 


6.2 手写 单字 的 特征 的 解码 


对 照 fileFormat-mpf.pdf 给 出 的 约定 可 以 得 出 如 下 的 解码 方式 : 
class MPF: 

#MPF 文件 的 解码 器 

def _init_ (self, fp): 


self. fp =fp 
# 解码 文件 头 
header_size = struct.unpack( 小 , self. fp.read(4))[0] 
# 文件 保存 的 形式 ， 如 “MPF” 
self.code format = self. fp.read(8).decode(asci).rstrip(\x00) 
# 文本 说 明 
self.text = self. fp.read(header_size - 62).decode().rstrip(\x00) 
# 编码 类 型 ， 如 “ASCI” ，“GB”，, etc 
self.code _ type = self. fp.read(20).decodellatin-1).rstrip(\x00) 
# 编码 长 度 
self.code_ length = struct.unpack(h', self. fp.read(2))[0] 
self.dtype = self.、 fp.read(20).decode('asci).rstrip(\x00) 
if self.dtype == "unsigned char : 
self.dtype = np.uint8 
else: 
self.dtype = np.dtype(self.dtype) 
# 样本 数 
self.nrows = struct.unpack(, self. fp.read(4))[0] 
# 特征 的 维度 
selfndims = struct.unpack(, self. fp.read(4))[0] 


def _iter _ (self): 


m = Self.code _ length + self.ndims 
for iin range(0, m ”self.nrows, m): 
# 样本 的 标签 
label = self. fp.read(self.code _length).decode('gb2312-80) 
# 样本 的 特征 
data = np.frombuffer(self. fp.read(self.ndims), self.dtype) 
yield data, label 先 以 'HWDB1.0trn.zip' 数据 集 为 例 来 说 明 MPF: 


Z=zipfile.ZipFile(f{frootMHWDB1.0trn.zip) 
z.namelist()[1:5] # 查看 前 4 个 人 写 的 MPF 


结果 如 下 : 


[HWDB1.0trn/001.mpf， 

'HWDB1.0trn/002.mpf， 

'HWDB1.0trn/003.mpf， 

'HWDB1.0trn/004.mpf] 
下 面 以 HWDB1.0trn/001.mpf 为 例 展 示 如 何 使 用 MPF: 
import pandas as pd 

fp = z.open(HWDB1.0trn/001.mpf) # 查看 第 一 个 写 手 

mpf = MPF(fp)# 解码 

df = pd.DataFrame.from_records([(label, data) for data, label in mpf) 
# 将 records 转换 为 pd.DataFrame 

df = pd.DataFrame(data=np.column_stack(df[1]).T, index=df[O]) 
df.head() # 查看 前 5 个 字 


输 


HB 结果 ， 如 图 6.1 所 示 。 


但 是 不 免 有 点 繁琐 ， 


使 用 


01 2 34 567 8 9 . 502 503 504 505 506 507 508 509 510 511 

0 
GD 0 0 41 7 8 gt 0 0 0 
遇 5 825 2222 7 0 32 20 10 0 20 28 24 18 9 5 3 0 
呈 ; 到 11 机 下 有 -病人 们 9 他 7: 引 1 0 9 沁 三 0 5 15 1 0 
饿 211 1112 2 313 34 1 25 3 16 1 15 20 1 2 35 17 
荐 24 2 4 126060422 0260- 改 汪 3 9 5 42 3 5 0 4 3 


5 rows x 512 columns 


这 些 特 征 的 具体 信息 ， 可 见 ; 


图 6.1 一 个 mpf 样 例 
由 上 图 6.1 可 以 看 出 ， 每 个 字 均 有 512 个 特征 ， 而 
mpf:text 
结果 如 下 : 


Character features extracted from grayscale images. 


#itrtype=ncg, #norm=ldi，#aspect=4，#tdirn=8&， 


#zone=8, 巡 step=8, 州 step=8, $deslant=0, $smooth=0, $nmdir=0, $multisc=0' 


具体 合 义 暂时 还 没有 深入 ， 暂 且 先 以 text 记录 下 
为 了 更 加 人 性 化 ， 考 虑 树 结构 : 


class Bunch(dict): 
def _init _ (self, *args, “kwargs): 
# 树 结构 
Super(0.，_init _(*args, 一 kwargs) 
self，、 dict = self 
具体 使 用 方法 如 下 : 
mb = Bunch() # 初始 化 树 结构 ， 生 成 树 根 
for name in z.namelist(): 
if name.endswith(.mpf): # 排除 根 目录 名 称 
# 树 的 术 丁 名 称 


来 。 虽 然 MPEF 很 好 的 解码 了 .mpf 文件 ， 


writer_=fwriterfos.path.splitext(name)[0].split(Z)[ 人 六 


with z.0pen(name) as fp: 
mpf= MPF(fp) 


df = pd.DataFrame.from_records([(label, data) for data, label in mpf]) 
df = pd.DataFrame(data=np.column_stack(df[1]).T, index=df[O]) 


# writer_ 枝 醚 上 的 两 片 时 子 


mb[writer ] = Bunchlf'text":mpf:text, features :df ) 


如 此 以 来 ， 便 可 以 通过 树 结 构 来 获取 自 


如 下 命令 ; 


mb.writer001.features.index 


显示 结果 ; 


Index([ 扼 ， 歇 ， 鄂 ， 铁 ， 恩 ， 而 ， 儿 ， 耳 ， 尔 ，' 饵 ， 


dtype='object, name=0, length=3728) 
可 以 看 出 第 001 人 《“ 写 手 的 ID ) 写 了 3728 个 字 。 


己 想 要 的 信息 ， 比 如 ， 查 看 第 001 人 写 的 字 ， 可 以 


6.3 手写 单字 的 特征 的 序列 化 与 反 序 列 化 


废 了 这 么 多 力气 ， 解 析 的 数据 如 果 不 序 列 化 〈 写 入 磁盘 ) 是 十 分 不 智 的 行为 。 对 于 序列 化 ， 
Python 提供 了 两 种 通用 方式 : JSON 与 HDF5。 它 们 的 实现 方法 均 很 简单 : 
(1) 序列 化 为 HDF5: 
# 序列 化 的 路 径 
Save_path = 'E:/OCR/CASIAdatasets/features.h5' 
for writer_id in mb.keys(): 
mb[writer_ id]l.features.to_hdf(save_path, key = writer_ id, complevel = 7) 
重新 读 取 已 经 序列 化 的 数据 也 是 十 分 简单 的 : 
df = pd.read_hdf(save_path,， writer1001") # 通过 key 获取 
(2) 序列 化 为 JSON: 
import pickle 
def bunch2json(bunch, path): 
# bunch 序列 化 为 JSON 
with open(path，wb ') as fp: 
pickle.dump(bunch, fp) 
反 序 列 化 亦 很 简单 
def json2bunch(path): 
# JSON 反 序 列 化 为 bunch 
with open(path，rb'") as fp: 
X = pickle.load(fp) 
return 义 
有 具体 操作 : 
path = 'E:/OCR/CASIAdatasets/features.json' 
bunch2json(mb, path) # 序列 化 
X = json2bunch(path) # 反 序 列 化 
下 面 为 了 代码 的 简洁 ， 定 义 一 个 函数 : 
def MPF2Bunch(set _name): 
# 将 MPF 转换 为 bunch 
Z=zipfile.ZipFile(set_ name) 
mb = Bunch() 
for name in Z.namelist(): 
if name.endswith(.mpf): 
writer_=fwriterfos.path.splitext(name)[0].split(Z)[ 人 六 
with Z.open(name) as fp: 
mpf= MPF(fp) 
df = pd.DataFrame.from_records([(label, data) for data, label in mpfl) 
df = pd.DataFrame(data=np.column_stack(df[1]).T, index=df[0]) 
mb[writer_ ] = Bunchlf text":mpf.text, features :df)) 
return mb 
这 里 还 有 一 个 问题 : HDFS 文件 丢弃 了 text 信息 ， 显 然 并 不 是 我 们 想 要 的 效果 。 为 了 将 
text 加 入 HDF5 文件 中 ， 需 要 引入 新 的 库 tables: 
import tables as tb 
有 具体 如 何 使 用 tables 暂且 放下 ， 先 来 考虑 所 有 单字 数据 的 特征 数据 : 
feature_paths = { 


os.path.splitext(tname)[0].replace(…，”): 

ffrootjnamel' for name in os.listdir(root) fnot in name} 
feature_paths 
结果 显示 ; 

{HWDB10Otrn':'E:/OCR/CASIAdata/HWDB1.0trn.zip， 
'HWDB10tst':'EJOCR/LCASIAdata/HWDB1.0tst.zip， 
'HWDB11trn:EXJOCR/CASIAdata/HWDB1.1trn.zip， 
'HWDB11tst:'EJOCR/CASINdata/HWDB1.1tst.zip， 
'OLHWDB10trn':'E:OCR/CASIAdata/OLHWDB1.0trn.zip， 
'OLHWDB10tst':E:JOCR/CASIAdataOLHWDB1.0tst.zip， 
'OLHWDB11trn':'E:OCR/CASIAdata/OLHWDB1.1trn.zip， 
'OLHWDB11tst':E:JOCR/CASIAdataOLHWDB1.1tst.zip1} 

这 样 所 有 的 单字 数据 的 特征 可 以 使 用 一 个 dict 表示 : 
root dict = Bunch({ 
name: MPF2Bunch(feature_paths[name]) for name in feature_paths 
和 
由 于 总 共有 8 个 数据 块 ， 故 而 需要 为 HDF5 文件 生成 8 个 “ 头 ”: 
save_path ='E:/OCR/CASIAdatasets/features.h5' # 数据 保存 的 路 径 
fitters = tb.Filters(complevel=7, shuffle=False) # 过 滤 信息 ， 用 于 压缩 文件 
h =tb.open file(save_path，w', filters=filters, title='Xinet\s dataset) 
for name in root dict: 
h.create_group(V, name = name, filters=fitters) # 生成 数据 集 " 头 " 
for writer_ id in root_ dict[name].keys(): 
h.create_group(V+name, writer id) # 生成 写 手头 ” 
h.root 
结果 显示 为 : 
/ (RootGroup) "Xinets dataset" 
children := [HWDB10oOtrn' (Group),，HWDB10tst (Group)， 
"HWDB11trn' (Group),，HWDB11tst (Group)，OLHWDB10trn' (Group)， 
'OLHWDB10tst (Group),,OLHWDB11trn' (Group),'OLHWDB11tst (Group)] 
如 果 要 得 看 HWDB1.0trn 数 据 集 下 某 个 人 可 以 这 样 操作 : 
h.root.HWDB10trn.writer001 
结果 显示 ; 
/HWDB10trn/writer001 (Group) "” 
children := 中] 
当然 ，hrootHWDB10trn.writer001 现在 里 面 什 么 也 没有 ， 因 为 还 没有 为 它 添 加 内 容 : 
def bunch2hdf(root dict, save_path): 
fiters = tb.Filters(complevel=7, shuffle=False) # 过 滤 信息 ， 用 于 压缩 文件 
h =tb.open_flle(save_path，w', filters=filters, title='Xinet\s dataset) 
for name in root dict: # 生成 数据 集 " 头 " 
h.create_group(, name = name, fiters=filters) 
for writer id in root_ dict[name].keys():# 生成 写 手 
h.create_group(Y+name, writer id) 
h.create_array(f nameMwriter id" text, root dict[namel[writer_ idj[text].encode()) 
features = root_ dict[name][writer_ idl[features)] 
h.create_array(f namewriter id" abels, ”join([lforlin features.index]).encode()) 
h.create_array(f (namewriter_ idj "features', features.values) 
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h.close() # 防止 资源 泄露 
为 了 后 续 与 fSON 进行 比较 ， 下 面 将 时 间 因 素 考 虑 进去 : 
%ocpetime 
Save_path = 'E:/DCR/CASIAdatasets/features.h5' 
bunch2hdf(save_path, root_dict) 
输出 结果 : 
Walltime: 57.4 S 
而 将 bunch 序列 化 为 SON 仅仅 使 用 函数 bunch2json 即 可 : 
%ocpetime 
json_path = 'E:JOCR/CASIAdatasets/features.json' 
bunch2json(root dict, json_path) 
输出 结果 : 
Walltime: 58.5 s 
HDF5 与 JSON 的 反 序 列 化 很 简单 
%ocpetime 
h =tb.open _ file(save_path) 
使 用 时 间 为 : 
Walltime: 158 ms 
而 JSON 载 入 的 时 间 就 有 点 长 : 
%ocpetime 
j=json2bunch(json_path) 
使 用 时 间 : 
Walltime: 32.3 s 
从 上 面 的 操作 可 以 看 出 ， 虽 然 序 列 化 为 SON 或 HDFS5 花费 的 时 间 都 很 得， 不 足 1 分 钟 ， 
但 生成 HDFS 相对 快 一 点 。 反 序列 化 时 JSON 花费 的 时 间 远 多 于 HDF5 花费 的 时 间 。 
下 面 再 看 看 二 者 在 存储 上 的 差距 : 
from sys import getsizeof 
Source _ Size = 0 
for path in feature_paths.values(): 
Source_Size += 0s.path.getsize(path) 
print(" 源 数据 文件 总 大 小 " source_size/1e9) 
print("JSON Python 对 象 占用 空间 大 小 为 : ", getsizeof(), 文件 大 小 为 , os.path.getsize(json_path)/1eg9) 
print("HDF5 Python 对 象 占 用 空间 大 小 为 : "getsizeof(hh)， "文件 大 小 为 ， 
os.path.getsize(save_path)/1e9) 
输出 结果 《〈 单 位 是 GB) : 
源 数据 文件 总 大 小 1.718896862 
JSON Python 对 象 占用 空间 大 小 为 : 368 文件 大 小 为 2.820918817 
HDF5 Python 对 象 占用 空间 大 小 为 : 80 文件 大 小 为 2.775279132 
可 以 看 出 使 用 JSON 与 HDF5 编码 的 数据 均 比 源 数据 占用 的 空间 要 大 1.5 倍 。 虽 然 牺 牲 了 存 
储 空间 ， 但 是 JSON 与 HDF5 在 数据 的 解码 和 读 取 上 更 为 高 效 。 
在 解析 的 方式 上 ，JSON 与 HDF5 极为 相似 ， 都 是 “ 树 ” 结 构 。 查 看 数据 集 : 
h.root 
输出 结果 为 ; 
/ (RootGroup) "Xinets dataset" 
children := [HWDB10trn' (Group),，HWDB10tst (Group)， 
"HWDB11trn' (Group),，HWDB11tst (Group),，OLHWDB10trn' (Group)， 


五 


'OLHWDB10tst (Group),，OLHWDB11trn' (Group),,OLHWDB11tst (Group)] 

而 JSON 使 用 dict 的 方式 获取 : 
j.keys() 
输出 结果 为 : 
dict keys([HWDB10trn,，'HWDB1otst，HWDB11trn，HWDB11tst， 

'OLHWDB10trn ，OLHWDB10tst，，OLHWDB11trn ，OLHWDB11tst]) 

获取 某 个 数据 集 的 写 手 亦 是 通过 点 运算 : hrootHWDB1l0tst 与 jHWDB10tstkeys0;， 同样 
获取 写 手 的 信息 也 是 通过 点 运算 : h.rootHWDB10trn.writer001 与 jHWDB10trn.writer001.keys0)。 
而 查看 一 个 写 手写 的 具体 汉字 ， 则 略 有 不 同 : 
查看 文本 信和 A 息 ， hrootHWDB10trn.writer007.textread(0.decodeO0 或 者 
j.HWDB10trmn.writer007.text 均 可 输出 : 

Character features extracted from grayscale images. 

trtype=ncg, #norm=ldi, #spect=4, #dirn=8, 所 2one=8， 

#zstep=8, 州 step=8, $deslant=0, $smooth=0, $nmdir=0, $multisc=0' 
查看 特征 ，JSON 比较 直接 ; 
j.HWDB10trn.writer007.features.head()# 前 5 特征 
输出 结果 ， 如 图 6.2 所 示 。 
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5 rows x 512 columns 
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6.2 JSON 格式 的 数 和 


但 是 ，HDF5 将 特征 与 标签 分 开 ， 碍 看 HDF5 的 特征 : 
c = h.root.HWDB10Otrn.writer007.features 
c[:5]# 前 5 特征 
输出 结果 : 
array([[21，8，6, ...，0，0,，0], 
225 和 9 人 00 
攻 人 4 所 痢 1 XIE OO 
IUDXESREREOE465h 
[ 8，2，6, .……, 12，6，5]], dtype=uint8) 
查看 HDF5 的 特征 对 应 的 标签 
b = h.root.HWDB10trn.writer007.labels.read().decode().split( ) 
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b[:5] 
输出 结果 为 : 


[ 昌 '， 屹 ， 亿 '， 役 ， 脐 ] 
JSON 与 HDF5 各 有 各 的 特色 ， 有 具体 使 用 那 一 个 可 以 自行 选择 。 手 写 单字 的 手工 特征 已 经 
解读 完成 ， 接 下 来 的 内 容 将 着 眼 于 其 图 片 的 解读 。 


6.4 手写 单字 的 图 片 解读 


手写 单字 的 离线 与 在 线 的 图 片 是 分 别 以 .gnt 与 .pot 格式 进行 编码 的 。 下 面 先 
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写 单字 长 什么 样 ? 


6.4.1 离线 手写 单字 的 图 片 解析 


首先 要 获取 离线 手写 单字 的 图 片 文件 : 
image_s = [ffrootj/name}'for name in os.listdir(root if'gnt' in name]# 图 片 的 源 文 件 
image_Ss 
输出 结果 : 
[EXJOCRLCASIAdataHWDB1.0trn_gnt.zip ， 
EMJOCR/LCASIAdata/HWDB1.0tst_gnt.zip， 
"EXJOCR/CASIAdata/HWDB1.1trn_gnt.zip'， 
'E:JOCR/CASIAdataHWDB1.1tst_gnt.zip]] 
先 定 义 一 个 gnt 解码 器 : 
class GNT: 
# GNT 文件 的 解码 器 
def _init (self Z, set_ name): 
Self.Z=2 忆 
self.set_name = set name # 数据 集 名 称 
def _iter _ (self): 
with self.Z.open(self.set _name) as fp: 
head = True 
while head: 
head = fp.read(4) 
i not head:# 判断 文件 是 否 读 到 结尾 
break # 读 到 文件 结尾 立即 结束 
head = struct.unpack( 小 , head)[0] 
tag_code = fp.read(2).decode(gb2312-80) 
width, height = struct.unpack(2H', fp.read(4)) 
bitmap = np.frombuffer(fp.read(width*height), np.uint8) 
img = bitmap.reshape((height, width)) 
yield img, tag_code 
选择 HWDB1.0trmn_gnt.zip 数据 子 集 作为 示范 来 说 明 GNT 的 使 用 : 
Z=zipfile.ZipFile(f{rootMHWDB1.0trn_gnt.zip) 
Z.namelist() 
和 输出 结果 ; 
1.0Otrain-gb1.gnt] 


r 一 


GNT 类 : 
set_ name = '1.0train-gb1.gnt 
gnt = GNT(Z, set name) 
for imgs, labels in gnt: # 仅仅 查看 一 个 字 
break 


为 了 更 加 直观 ， 引 入 可 视 化 包 : 


由 输出 结果 知道 HWDB1.0trn_gnt.zip 仅仅 封装 了 一 个 数据 '1.0train-gbl.gnt， 下 


在 直 接 传 入 


%matplotlib inline 

from matplotlib import pyplot as plt 
这 样 便 可 以 查看 图 片 : 
plt.imshow(imgs) 

plt:title(labels) 

plt.show() 

输出 结果 ， 如 图 6.3 所 示 。 


C:\Users\xz\. condavenvs\Vmxnet\lib\site-packages\matplotlib\backends\backend_agg. py:211: RuntimeWarning: Gl1yph 25212 missing from current fon 
t 


font. set_text(s，0. 0，flags=flags) 
C:\Users\xz\. condaVenvs\Vmxnet\lib\site-packages\Vmatplotlib\backends\backend_agg. py:176: RuntimeWarning: Glyph 25212 missing from current fon 


七 
font. load_char (ord(s)，flags=flags) 


n 


图 


过 


图 6.3 离线 手写 字 示 人 
可 以 看 出 ， 此 时 报错 了 ， 说 缺少 字体 。 实 际 上 ， 这 是 matplotlib 的 默认 设置 不 文 持 汉 字 ， 
为 了 让 其 支持 汉字 ， 需 要 如 下 操作 : 

plt.rcParams[font.sans-serif] = [SimHei] # 用 来 正常 显示 中 文 标签 
plt.rcParams['axes.unicode_minus'] = False # 用 来 正常 显示 负 号 

接 下 来 便 可 以 正常 显示 了 : 

plt.imshow(imgs) 

plttitle(labels); 

显示 截图 ， 如 图 6.4 所 示 。 


图 6.4 修正 的 离线 手写 字 示 例 图 


可 以 查看 '1.0train-gbl.gnt 总 有 多 少 字符 ? 
labels = np.asanyarray([lfor ,lin gnt) 
labels.shape[0] 
输出 : 


1246991 
故而 ，'1.0train-gbl.gnt 总 有 1246991 个 字符 ， 与 官网 提供 的 信息 一 致 。 


6.4.2 在 线 手 写 单字 的 图 片 解析 


同样 ， 需 要 获取 在 线 手写 单字 的 图 片 文件 : 
image_s1 = [ffrootyMname}' for name in os.listdir(root) fpot' in name] # POT 图 片 的 源 文 件 
image _S1 

输出 结果 为 : 

[EXJOCRLCASIAdata/OLHWDB1.0test_pot.zip 
'E:JOCR/CASIAdata/OLHWDB1.0train_pot.zip ， 
'E:JOCR/CASIAdata/OLHWDB1.1trn_pot.zip， 
'E:JOCR/CASIAdata/OLHWDB1.1tst_pot.zip] 

与 GNT 一 样 ， 先 写 一 个 POT 的 解码 器 : 
class POT : 
# POT 解码 器 
def _init_ (self, Z, set_ name): 
self.Z = 忆 
self. fp = Z.open(set _ name) 
def _iter (self): 
Size = Struct.unpack(H', self.、fp.read(2))[0] # Sample size 
tag = 人 # 记录 字符 与 笔画 
Sizes = [] 
tag_ id = 0 
while size: 
Sizes.append(size) 
tag_code = self. fp.read(4).decode( 
"gb18030).strip(\x00) # 字符 解码 
stroke_num = struct.unpack('H', self. fp.read(2))[0] # 笔画 数 
Strokes = {k:[]forkin range(stroke_num)} 
k=0 
while k <= stroke_num: 
Xy = Struct.unpack(2h', self. fp.read(4)) 
i xy == (-1, 0): 
k+= 1 
elif xy == (-1, -1): 
tag.update({ftag_id:{tag_code: strokes})) # 更 新 字典 
tag_ id += 1 
Size = Self. fp.read(2) 
if size == b": # 判断 是 否 解码 完成 
print(' 解 码 结束 ! ) 
else: 
Size = struct.unpack(H', size)[0] # Sample size 
break 
else: 
strokes[k].append(xy) # 记录 笔迹 坐标 
yield tag, sizes 
以 OLHWDB1.1ltrn_pot.zip 为 例 来 说 明 如 何 使 用 POT 类 ; 
Z=zipfile.ZipFile(f{rootMOLHWDB1.1trn_pot.zip) 
ss = 0 # 统计 该 数据 集 总 共 的 样本 数目 
Z=zipfile.ZipFile(E:MOCR/CASIAdata/OLHWDB1.1trn_pot.zip) 


for set_ name in Z.namelist(): 
pot = POT(Z, set_name) # 实例 化 
fortags，_in pot: 
… # 等 价 于 pass 
SSs += len(tags.keys()) 
print(Ss == 898573) 


输出 结果 为 ; 
True 


即 输出 的 结果 符合 官方 提供 的 统计 。 更 多 的 细节 这 里 就 不 展开 了 ， 后 面 用 到 时 再 详细 讲解 。 


6.5 本 章 小 结 


本 章 主要 介绍 了 CASIA 脱 机 与 在 线 手写 字符 的 人 工 特征 解码 以 及 其 图 片 的 解码 。 虽 然 ， 
写 了 不 少 API 作为 解码 器 ， 但 是 仍然 存在 不 少 细节 内 容 没 有 展开 。 本 章 这 样 做 的 目的 是 为 了 减 
少 理解 负担 ， 在 之 后 的 章节 和 若 有 涉及 CASIA 的 数据 集 的 使 用 ， 那 时 再 展开 将 更 容易 理解 。 


第 7 章 COCO API 的 使 用 


COCO 数据 库 是 由 微软 发 布 的 一 个 大 型 图 像 数据 售 
关键 点 检测 、 语 义 分 割 和 字幕 生成 而 设计 。 

本 章 快 报 ; 
@ 介 绍 和 使 用 官方 API;， 详细 说 明 如 何在 Linux 和 Windows 系统 下 使 用 cocoapi。 
@ 改 写 官 方 API;， 利用 Python 的 特性 对 API 进行 改写 ， 同 时 支持 直接 读 取 压 缩 文 

件 。 

@API 扩 展 : 将 API 推广 至 其 他 数据 集 。 

下 面 来 探讨 一 下 如 何 利用 Python 来 使 用 COCO 数据 集 。 


该 数据 集 专 为 对 象 检 测 、 分 割 、 人 体 


7? 训 | 


7.1 COCO API 的 配置 与 简介 


四 


果 你 要 了 解 COCO 数据 库 的 一 些 细 节 ， 可 以 参考 : 
@ 我 改写 的 COCO API 网 址 : https:/github.com/Xinering/cocoapi。 
@ 数 据 下 载 : http:/mscoco.org/dataset/#download。 


刀 


下 


COCO API (https:/github.com/cocodatasetcocoapi) 提供 了 Matlab, Python 和 Lua 的 API 
接口 。 该 API 接口 提供 完整 的 图 像 标 签 数据 的 加 载 ， 解 析 和 可 视 化 的 工作 。 此 外 ， 网 站 还 提供 
了 与 数据 相关 的 文章 、 教 程 等 。 


在 使 用 COCO 数据 库 提 供 的 API 和 demo 之 前 ， 首 先 需要 下 载 COCO 的 图 像 和 标签 数据 ; 


@ 图 像 数 据 下 载 到 coco/images/ 文件 夹 中 。 
@ 标 签 数据 下 载 到 coco/annotations/ 文件 夹 ! 
为 了 方便 操作 ， 先 fork 官方 COCO APL， 然后 下 载 到 本 地 ， 并 切换 到 API 所 在 目录 ， 如 


D:\APIcocoapi\PythonAPI。 直 接 在 Shell 中 调 取 : 


cd DAAPINcocoapiNPythonAPI 
打开 当前 目录 下 的 Makefile 可 以 看 到 API 的 安装 和 使 用 说 明 。 


7.1.1 Windows 的 配置 


Windows 中 《一 般 需 要 安装 visual studio) 有 许多 的 坑 ， 暴 力 删 掉 参数 Wno-cpp 和 Wano- 


unused-function 可 以 解决 一 部 分 问题 ， 代 码 如 下 所 示 ; 


所 


from distutils.core import setup 
from Cython.Build import cythonize 
from distutils.extension import Extension 
import numpy as np 
#To compile and install locally run "python setup.py build_ext --inplace" 
#To install library to Python site-packages run "python setup.py build_ext install" 
ext _ modules = [ 
Extension( 
"pycocotools，mask，， 
Sources=[../commom/maskApi.c,'pycocotools/_mask.pyx]， 
include dirs = [np.get_include()，../common ]， 
extra_compile_args=[-std=c99)]， 
) 
] 


setup(name='pycocotools 
packages=['pycocotools)]， 
package _dir ={pycocotools': 'pycocotools )， 
Version='2.0， 
ext_modules= 
cythonize(ext modules) 


) 


便 可 以 在 Python 中 使 用 pycocotools， 不 过 每 次 你 想 要 调用 pycocotools 需要 先 载 入 


这 


局 部 环境 ， 如 下 代码 所 示 : 


import sys 
sys.path.append('DA\APINcocoapiNPythonAPI) # 将 你 的 `pycocotools` 所 在 路 径 添加 到 系统 环境 
如 果 你 不 想 这 么 麻烦 ， 你 可 以 直接 将 pycocotools 安装 在 你 的 主 环境 下 ， 如 下 所 示 : 
cd DAAPINcocoapiNPythonAPI 

python setup.py build_ext install 

rd build ## 删 除 

但 是 ， 这 样 并 没有 解决 根本 问题 ， 还 有 许多 bug 需要 你 自己 调 ， 因 而 在 第 7.2 节 介绍 了 


cocoapi 对 Windows 系统 更 加 的 友好 实现 。 


7.1.2 Linux 下 的 配置 


在 Linux 下 ， 不 需要 上 面 这 么 多 编译 步骤 ， 可 以 直接 在 终端 输入 下 列 命令 即 可 正常 使 用 
COCO API， 代 码 入 下 所 示 : 

pip3 install -U Cython 

pip3 install -U pycocotools 
当然 ， 你 也 可 以 使 用 和 Windows 系统 同样 的 处 理 方法 ， 有 具体 操作 方法 也 可 以 参考 Makefile: 
http:Wcocodataset.org/ 禁 ormat-data 。 


7.2 改写 COCO API 的 初衷 


前 文 我 一 直 在 说 cocoapi Windows 系统 不 友好 ， 相 信 在 Windows 系统 下 使 用 过 cocoapi 的 
朋友 一 定 会 十 分 赞同 的 。 


7.2.1 Why? API 改写 的 目的 


为 了 在 Windows 系统 下 更 加 友好 的 使 用 cocoapi， 抛 去 各 种 调 bug 的 烦恼 ， 十 分 有 必要 对 
cocoapi 进行 改写 。 但 是 ， 完 全 改写 源码 是 有 点 让 人 感到 恐惧 的 事情 ， 而 Python 是 一 个 十 分 强 
大 的 语言 ， 利 用 它 的 继承 机 制 可 以 无 压力 改写 代码 。 


7.2.2 What? API 可 以 做 什么 


读者 朋友 是 不 是 感觉 改写 API 在 做 无 用 功 ， 直 接 在 Linux 系统 使 用 cocoapi 也 没有 这 人 么 多 
的 烦恼 ， 为 什么 一 定 要 改写 ? 因为， 改写 后 的 API 除了 可 以 直接 在 Windows 系统 友好 使 用 2 
外 ， 它 还 提供 了 无 需 解压 〈 直 接 跳 过 解压 ) 直接 获取 标注 信息 和 图 片 的 功能 。 


AL 


7.2.3 How? API 如 何 设计 


在 cocoapi 所 在 目录 D:\APINcocoapi\PythonAPINpycocotools 下 创建 cocoz.py 文件 。 下 面 来 
一 步 一 步 的 填充 cocoz.py。 为 了 方便 调试 ， 先 在 Notebook 模式 下 设计 该 API， 设 计 好 之 后 ， 再 
封装 到 cocoz.py 文件 中 。 为 了 令 cocoapi 可 以 使 用 ， 需 要 先 载 入 环境 ， 代 码 如 下 所 示 : 

import sys 

Sys.path.append(rDAAPINcocoapiNPythonAPI) 

from pycocotools.coco import COCO 
由 于 需要 直接 读 取 压 缩 文 件 ， 因 而 需要 载 入 _zipfile， 为 了 减少 代码 编写 的 工作 量 ， 下 面 直 
接 借 用 cocoapi 的 COCO 类 。 又 因为 标注 信息 是 以 .json 形式 存储 的 ， 所 以 载 入 json 也 是 必要 的 ， 
而 numpy 和 cv2 处 理 图 片 数 据 的 重要 工具 当然 也 需要 ， 所 涉及 代码 如 下 所 示 ; 

# 载 入 必 备 包 


百 ， 


import os 
import zipfile 
import numpy as np 
import cv2 
import json 
import time 
为 了 更 加 方便 的 查看 某 个 函数 运行 时 间 ， 同 时 需要 一 个 计时 器 来 看 看 效果 ， 如 下 所 示 : 
def timer(func): 
# 定义 一 个 计时 器 , 传 入 一 个 需要 修饰 的 函数 , 返回 附加 了 计时 功能 的 另 一 种 方法 
def wrapper(args): 

start =time:time() # 开始 计时 

print(CLoading json in memory .…) 

value = func(*args) 

end = time:time() # 终止 时 间 

print('used time: {0:g} sformat(end - start)) 

return value 

return wrapper 

我 将 COCO 的 所 有 数据 都 下 载 到 了 磁盘 ， 可 以 通过 如 下 代码 查看 : 
root = mrE\Datavcoco' # COCO 数据 根 目 录 
dataDir = os.path.join(root,'images'") # 图 片 所 在 目录 
annDir = os.path.join(root, 'annotations'") # 标注 信息 所 在 目录 
print(imagesxn',os.listdir(dataDin ) 
print('=*50) # 为 了 区 分 
print('annotations\n' ,os.listdir(dqataDin) 
print(os.listdir(annDim) 
输出 结果 如 下 所 示 : 
images: 
[test2014.zip'， 'test2015.zip， test2017.zip， rain2014.zip'， train2017.zip'， "unlabeled2017.zip ， 
val2014.zip, val2017.zip)] 


annotations: 

[test2014.zip， 'test2015.zip'， 'test2017.zip， train2014.zip， train2017.zip,， "unlabeled2017.zip， 
val2014.zip', val2017.zip] 

[annotations_trainval2014.zip'， annotations _ trainval2017.zip， image _info_test2014.zip'， 
image _info test2015.zip， image_info_test2017.zip， image _info_unlabeled2017.zip， 
"panoptic_annotations_ trainval2017.zip',，Sstuff_annotations_trainval2017.zip] 


从 上 代码 可 以 看 出 ， 所 有 数据 我 都 没有 解压 ， 下 面 将 动手 设计 一 个 无 需 解 压 便 可 获取 数 


QH 


电 的 接口 。 


7.3 ImageZ 的 设计 和 使 用 


先 设 计 一 个 用 来 处 理 coco/images/ 文件 夹 下 的 图 片 数 据 集 的 类 。dataType 可 以 是 test2014， 


test2015'，'test2017'，"'train2014'，'train2017'，'"unlabeled2017'，"val2014'，"val2017'， 代 码 如 下 所 
示 : 


class ImageZ(dict): 


# 处 理 images 下 的 压缩 文件 
def _init_ (self, root, dataType, *args, 近 kwds):#root':: root 目录 
Super().，_init _ (args, “kwds) 
self. dict _ = self 
self.shuffle = True if dataType.startswith(train ) else False 
self.Z = self， get_Z(root, dataType) # ZipFie 对 象 
selfnames = self. get_names(self.Z) 
self.dataType = self.Z.namelist([0] 
@staticmethod 
def get_Z(root, dataType): 
# 获取 images 下 压缩 文件 的 文件 名 
dataType = dataType + .zip' 
img_root = os.path.join(root， images) 
return zipfile.ZipFile(os.path.join(img_root, dataType)) 
@staticmethod 
def _get_names(Z): 
names = [ 
name.split( 思 [for name in Z.namelist() 
if not name.endswith(/) 
] 
return names 
def buffer2array(self, image_name): 
# 直接 获取 图 片 数据 , 无 需 解压 缩 
image_name = self.dataType + image_name 
buffer = self.Z.readlimage_name) 
image = np.frombuffer(buffer, dtype="B") # 将 buffer 转换 为 np.uint8 数组 
img_cv = cv2.imdecode(image, cv2.IMREAD_COLOR) # BGR 格式 或 者 Gray 
img = cv2.cvtColor(img_cv, cv2.COLOR_BGR2RGB) 
return img 
代码 这 么 长 看 着 是 不 是 有 点 懂 ， 有 具体 细节 大 家 自己 琢磨， 接 下 来 直接 看 看 它 有 什么 神奇 
代码 如 下 所 示 : 
dataDir = rE\Datavcoco' # COCO 数据 根 目录 
dataType = val2017" 
imgZ = ImageZ(dqataDir, dataType) 


加 


由 于 imgZ 继承 自 dict， 所 以 它 拥有 字典 的 几乎 所 有 属性 和 功能 ， 如 下 所 示 : 
imgZ.keys() 
输出 结果 如 下 所 示 : 


dict keys([shuffle, 'Z ,names',， dataType]) 
@ names: 存储 了 val2017.zip 的 所 有 图 片 的 文件 名 
@ shuffle: 判断 是 否 是 训练 数据 集 
@  Z: ZipFile 对 象 ， 用 来 操作 整个 val2017.zip 文 们 
有 一 个 实例 方法 buffer2array 可 以 直接 通过 图 片 的 文件 名 获取 其 像素 级 特征 ， 如 下 代码 


-本 


证 


疝 


所 示 : 
fname = imgZz.names[77] # 一 张 图 片 的 文件 名 
img = imgZz.buffer2array(fname) # 获取 像素 级 特征 


由 于 img 是 Numpy 数组 ， 这 样 就 可 以 对 其 进行 各 种 我 们 熟悉 的 操作 ， 如 图 片 6.1 所 示 ， 
所 涉及 的 代码 如 下 : 


from matplotlib import pyplot as plt 
plt.imshow(img) 
plt.show() 


输出 如 图 7.1 所 示 。 
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图 7.1 buffer2array 获取 图 片 
至 此 ， 已 经 完成 无 需 解压 直接 读 取 图 片 的 工作 。 


7.4 AnnZ 的 设计 和 使 用 


为 了 直接 获取 标注 信息 而 不 解压 ， 可 以 设计 如 下 代码 : 
class AnnZ(dict) 洪 处 理 annotations 下 的 压缩 文件 
def _init_(self, root, annType, "args, “kwds): 
#annType 可 以 是 
#annotations trainval2014',, annotations _ trainval2017,image _info _test2014，,， 
##image _info_ test2015,image_info_ test2017,image _info_unlabeled2017， 
#panoptic_annotations_trainval2017'，'stuff_annotations_trainval2017” 
Super(0).，_init_(*args, “kwds) 
self. dict _ = self 
self.Z = Self get_Z(root, annType) 
selfnames = self. get_names(self.Z) 
@staticmethod 
def _ get_Z(root, annType): 
# 获取 ann 下 压缩 文件 的 文件 名 
annType =annType + .zip'， 
annDir = os.path.join(root， annotations) 
return zipfile.ZipFile(os.path.join(annDir annType)) 
人 staticmethod 
def _ get_names(Z): 
names = [namefor name in Z.namelist( if not name.endswith(] 
return names 
Qtimer 
def json2dict(self, name): 
with self.Z.open(name) as fp: 


dataset = json.load(fp) # 将 json 转换 为 dict 
return dataset 

直接 调用 代码 如 下 所 示 : 

root = PE\DataNcoco' # COCO 数据 集 所 在 根 目录 

annType = 'annotations _ trainval2017'# COCO 标注 数据 类 型 

annZ = AnnZ(root annType) 
来 查看 一 下 该 标注 数据 所 包含 的 标注 种 类 : 

annZ.names 
输出 如 下 所 示 ; 

[annotations/instances _ train2017.json， 

annotations/instances_val2017.json， 

annotations/captions _ train2017.json， 

annotations/captions_val2017.json， 

annotations/person_keypoints train2017.json， 

annotations/person_keypoints_val2017.json] 
下 面 以 dict 的 形式 载 入 'annotations/instances_train2017.json' 的 具体 信息 : 
annFile='annotations/instances_val2017.json ' 

dataset = annZ.json2dict(annFile) 
输出 : 
Loading json in memory .… 

Used time: 1.052 s 
可 以 查看 dataset 的 关键 字 如 下 所 示 ; 
dataset.keys() 
输出 如 下 : 
dict keys([info, licenses'，images', annotations'，categories]) 
这 样 ， 可 以 很 方便 的 使 用 dict 的 相关 操作 获取 想 要 的 一 些 信息 ， 代 码 如 下 所 示 : 
dataset['images'][7] # 查看 一 张 图 片 的 一 些 标注 信息 
输出 结果 如 下 代码 所 示 ; 

flicense': 6， 

file_name': '000000480985.jpg， 

"coco_urf: http:Wimages.cocodataset.orgval2017/000000480985.jpg， 

"height': 500， 

width': 375， 

date_captured': '2013-11-15 13:09:24,， 

flickr_ ur http:farm3.staticflickr.com/2336/1634911562_703ff01cff_z.jpg ， 

'id': 480985} 

可 以 利用 "coco_url 直接 从 网 上 获取 图 片 ， 如 下 图 6.2 所 示 ， 代 码 如 下 : 

from matplotlib import pyplot as plt 

import skimage.io as Sio 

coco_url = dataset['images'][7][coco_url] 

#Use urlto load image 

| = Sio.imread(coco_url) 

plt.axis('off) 

plt.imshow(l) 

plt.show() 
输出 结果 ， 如 图 7.2 所 示 。 


图 7.2 coco_url 获取 图 片 
借助 InageZ 从 本 地 读 取 图 片 7.3， 代 码 如 下 所 示 : 

from matplotlib import pyplot as plt 

imgType = Vval2017" 

img2Z = ImageZ(root, imgType) 
1=imgZ.buffer2array(dataset['images'][100][file_name]) 
plt.axis('off) 

plt.imshow(l) 

plt.show() 


输出 结果 ， 如 图 7.3 所 示 。 


图 7.3 ImageZ 从 本 地 读 取 图 片 


7.53 COCOZ 的 设计 和 使 用 


ImageZ 和 AnnZ 虽然 很 好 用 ， 但 是 它们 的 灵活 性 太 大 ， 并 且 现 在 的 开源 代码 均 是 基于 
COCO 类 进行 设计 的 。 为 了 更 加 契合 cocoapi 需要 一 个 中 转 类 COCOZ 去 实现 和 COCO 几乎 一 
样 的 功能 ， 并 且 使 用 方法 也 尽 可 能 的 保留 。 有 具体 是 代码 如 下 : 
class COCOZ(COCO, dict): 
def _init_(self annZ, annFile, "args, 一 kwds): 
# ptint(coco): 预览 COCO 的 'info' 
Super(0).，_init _(args, “kwds) 


self， dict = self # Bunch 结构 
self.dqataset = annZ.json2dict(annFile) 
self.createlndex() 


Qtimer 
def createlndex(self): 


# 创建 index 
print(creating index.…) 
cats, anns, imgs = 人, 介 , 他 
imgToAnns, catTolmgs = 人, 人 
if "annotations' in self.dataset: 
for ann in self.dataset['annotations ]: 
imgToAnns[ann['image_id]] = imgToAnns.get( 
ann[image_id], []) + [ann] 
anns[ann['id]] = ann 
if images' in self.dataset: 
forimg in self.dataset['images']: 
imgs[img[id]] = img 
if 'categories' in self.dataset: 
for cat in self.dataset['categories]]: 
cats[cat['id']] = cat 
if 'annotations' in self.dataset and 'categories' in self.dataset: 
for ann in self.dataset['annotations']: 
catTolmgs[ann['category_id]] = catTolmgs.get( 
ann[fcategory_id], [0]) + [ann[image _ id)]] 
print(index createdl) 
# 创建 类 别 
selfanns = anns 
selfimgToAnns = imgToAnns 
self.catTolmgs = catTolmgs 
self.imgs = imgs 
self.cats = cats 


def _ str (self): 


Print information about the annotation file. 
驴 三 | 

人 :人 :format(key, value) 

for key, value in self.dqataset['info].items() 
] 


return \n .join(S) 


具体 如 何 使 用 COCOZ， 代 码 如 下 所 示 ; 


root = "EX\Datavcoco'”# COCO 数据 集 所 在 根 目录 

annType = 'annotations _trainval2017'”# COCO 标注 数据 类 型 
annFile = 'annotations/instances_val2017.json' 

annZ = AnnZ(root, annType) 

coco = COCOZ(annZ, annFile) 


输 


上 如 下 记 示 : 


Loading json in memory .… 
Used time: 1.036 s 


7.5. 


Loading json in memory .… 

creating index.… 

index createdl 

Used time: 0.421946 s 

如 果 你 需要 预览 你 载 入 的 COCO 数据 集 ， 可 以 使 用 printO 来 实现 代码 如 下 所 示 : 
print(coco) 

输出 代码 如 下 所 示 : 

description: COCO 2017 Dataset 

url: http:/cocodataset.org 

version: 1.0 

year: 2017 

contributor: COCO Consortium 

date_created: 2017/09/01 

再 次 查看 : 

CoOco.keys() 

输出 ; 


dict_ keys([dataset,'anns,，imgToAnns', catTolmgs，imgs'，cats]) 


1 展示 COCO 的 类 别 与 超 类 


一 般 地 ， 对 于 图 片 分 类 和 识别 ， 需 要 考虑 类 别 的 分 布 问题 。 比 如 : 有 一 个 数据 集 拥有 类 别 


吕 
是 “ 狗 ” 和 “ 猫 ” 这 两 类 ， 而 另 一 个 数据 集 拥 有 类 别 “ 黑 狗 ”、“ 白 狗 ”、“ 黑 猫 ” 和 “和 白 


猪 39? S 


如 果 直 接 建立 一 个 模型 来 训练 这 两 个 数据 集 ， 很 显然 是 不 合理 的 。 为 此 ， 可 以 将 “ 狗 ” 和 


“ 猫 ” 的 标签 作为 超 类 标签 ， 而 “ 黑 狗 ”、“ 白 狗 ” 视 为 “ 狗 ” 的 子 类 ; 同 理 ，“ 黑 猫 ” 和 


“ 白 猫 ” 视 为 “ 猫 ” 的 子 类 。 


可 以 通过 loadCats 直接 获取 图 片 的 类 别 信息 代码 如 下 所 示 ; 
cats = coco.loadCats(coco.getCatlds()) 

nms = set([cat['name'] for cat in cats]) # 获取 cat 的 name 信息 
print('COCO categories: \n{f}》n'.format(”.join(nms))) 


snms = set([cat['supercategory] for cat in cats]) # 获取 cat 的 name 信息 

print('COCO supercategories: \nf} .format(….join(snms))) 

其 中 mame' 代 表 图 片 的 类 别名 字 ，'supercategory 代表 超 类 名 字 。 输 出 结果 如 下 所 示 ; 

COCO categories: 

kite sports ball horse banana toilet mouse frisbee bed donut clock sheep keyboard tv cup elephant 
cake potted plant snowboard train zebra fire hydrant handbag cow wine glass bowl sink parking meter 
umbrella giraffe suitcase skis surfboard stop sign bear cat chair traffic light fork truck orange carrot 
broccoli couch remote hair drier sandwich laptop tie person tennis racket apple spoon pizza hot dog 
bird refrigerator microwave scissors backpack airplane knife baseball glove vase toothbrush book 
bottle motorcycle bicycle car skateboard bus dining table cell phone toaster boat teddy bear dog 
baseball bat bench oven 


COCO supercategories: 
animal kitchen food appliance indoor accessory person sports furniture outdoor electronic vehicle 


7.5.2 通过 给 定 条 件 获 取 图 片 


如 何 快速 搜索 数据 集 集中 的 数据 是 很 关键 的 。 由 于 数据 量 有 点 大 ， 故 而 需要 一 个 快速 查找 
片 的 方式 。 下 面 的 代码 提供 了 依据 给 定 条 件 来 获取 包含 给 定 类 别 下 的 所 有 图 片 ， 代 码 如 下 : 

# 获取 包含 给 定 类 别 的 所 有 图 像 , 随机 选择 一 个 

catlds = coco.getCatlds(catNms=['cat', 'dog',，'snowboar]) # 获取 Cat 的 lds 

imglds = coco.getlmglds(catlds=catlds ) # 

img = coco.loadlmgs(imglds) 

# 随机 选择 一 张 图 片 的 信息 

img = coco.loadlImgs(imglds[np.random.randint(O,len(imglds))])[O0] 


珊 


img 

输出 代码 如 下 所 示 : 

flicense': 3， 

file_name': '000000179392.jpg， 

"coco_urf http:Wimages.cocodataset.orgval2017/000000179392.jpg， 
"height : 640， 

width': 480， 

date_captured': '2013-11-18 04:07:31 ， 

fickr_urf :http:Wfarm5.staticflickr.com/4027/4329554124 _1ce02506f8_z.jpg， 
'id': 179392} 


7.5.3 将 图 片 的 anns 信息 标注 在 图 片上 


为 了 提取 图 片 是 高 级 语义 特征 ， 比 如 将 图 片 传 入 分 割 算法 中 来 训练 模型 ， 训 练 好 之 后 ， 又 
需要 查看 训练 的 效果 如 何 ， 为 此 ， 需 要 一 个 工具 来 将 图 片 的 标注 信息 可 视 化 。 下 面 先 从 本 地 磁 
盘 获 取 一 张 图 片 ， 如 下 图 7.4， 代 码 如 下 : 

from matplotlib import pyplot as plt 

imgType = Vval2017' 

img2Z = ImageZ(root, imgType) 

# 读 取 图 片 

|=imgZ.buffer2array(dataset['images'][55][file_name) 

# 可 视 化 

plt.axis('off) 

plt.imshow() 

plt.show() 

输出 结果 如 下 图 7.4 所 示 。 


图 7.4 原 图 
将 标注 信息 加 入 图 片 ， 如 下 图 7.5， 代 码 如 下 : 

# 载 入 和 展示 annotations 

plt.imshow(l) 

plt.axis('off) 

annlds = coco.getAnnlds(imglds=img[id], catldqs=catlds, iscrowd=None) 
# 载 入 标注 信息 

anns = coco.loadAnns(annlds) 

coco.ShowAnns(anns) 


输出 结果 ， 如 图 7.5 所 示 。 


图 7.5 将 图 片 的 anns 信息 标注 在 图 片上 


7.5.4 关键 点 检测 


关键 点 检测 主要 有 人 脸 键 点 检测 和 人 体 骨 骼 关键 点 检测 。 接 下 来 看 看 人 体 骨 骼 关键 点 检测 


的 一 些 简 单 操作 ， 载 入 标注 信息 ， 代 码 如 下 所 示 : 
#initialize COCO apifor person keypoints annotations 
root = PE\Datavcoco' # COCO 数据 集 所 在 根 目录 
annType = 'annotations_trainval2017' # COCO 标注 数据 类 型 
annFile = 'annotations/person_keypoints_val2017.json' 


annZ = AnnZ(root, annType) 

Coco _kps = COCOZ(ann2Z, annFile) 

输出 如 下 代码 ; 

Loading json in memory .… 

Used time: 0.924155 s 

Loading json in memory .… 

creating index.. 

index createdl 

Used time: 0.378003 s 

先 选择 一 张 带 有 person 的 图 片 ， 如 下 图 7.6 所 示 。 
from matplotlib import pyplot as plt 

catlds = coco.getCatlds(catNms=['person]) # 获取 Cat 的 lds 
imglds = coco.getlmglds(catlds=catldqs) 

img = coco.loadlmgs(imglds)[99] 

#Use urlto load image 

| = Sio.imread(img[coco_ur 站 ) 

plt.axis('off) 

plt.imshow() 

plt.show() 


输出 结果 ， 如 图 7.6 所 示 。 


图 7.6 原 图 


将 标注 加 到 图 片 7.7 上 ， 代 码 如 下 : 

#load and display keypoints annotations 

pltimshow(D); plt.axis('off) # 关闭 网 格 

ax = plt.gcal) 

annlds = coco _kps.getAnnlds(imglds=img['id], catlds=catldqs, iscrowd=None) 
anns = coco_kps.loadAnns(annlds) # 载 入 标注 

Coco _kps.showAnns(anns) 


输出 结果 ， 如 图 7.7 所 示 。 


图 7.7 关键 点 标注 


7.5.5 看 图 说 话 


四 


还 有 一 个 比较 有 有 意思 的 任务 是 给 定 图 片 ， 然 后 输出 该 图 片 的 描述 性 文字 ， 操 作 如 下 。 
载 入 标注 信息 ， 代 码 如 下 所 示 : 

#initialize COCO apifor person keypoints annotations 
root = PE\Datavcoco' # COCO 数据 集 所 在 根 目录 
annType = 'annotations_trainval2017' # COCO 标注 数据 类 型 
annFile = 'annotations/captions_val2017.json' 

annZ = AnnZ(root, annType) 

coco_caps = COCOZ(ann2Z, annFile) 

输出 代码 如 下 所 示 : 

Loading json in memory .… 

Used time: 0.0760329 s 

Loading json in memory .… 

creating index... 

index createdl 

Used time: 0.0170002 s 
将 标注 加 到 图 片 7.8 上 ， 如 下 所 示 : 

Amanriding on askateboard on the sidewalk. 

akid riding on a skateboard on the cement 

There is a skateboarder riding his board on the sidewalk 
A skateboarder with one fut on a skateboard raising it up. 
Apavement where a person foot are seen having skates. 


图 7.8 字幕 生成 


至 此 ， 达 到 我 们 的 预期 目标 。 


7.6 让 API 更 加 通用 


虽然 完成 了 预期 目标 ， 但 是 cocoz.py 还 有 很 大 的 改进 余地 。 比 如 可 以 令 ImageZ 变 得 像 列 
表 一 样 ， 支 持 索 引 和 切片 。 为 了 优化 结构 ， 可 以 将 其 封装 为 生成 器 。 基 于 这 些 想 法 便 得 到 一 个 
改进 的 InageZ， 只 需 添 加 几 个 实例 方法 即 可 ， 代 码 如 下 : 
def _getitem__(self item): 
“ 令 类 对 象 支持 索引 和 切片 ” 
names = self.namesl[item] 
if isinstance(item, slice): # 切片 
return [self.buffer2array(name) for name in names] 
else: 
return self.buffer2array(names) 
def _len__ (self): 
return len(self.names) 
def _iter _ (self): 
for name in self.names: 
yield self.buffer2array(name) 
详细 代码 被 我 放 在 : 
https:Wgithub.com 人 Xinering/cocoapVyblob/mastewPythonAPI/pycocotools/cocoz.py。 
同时 ， 为 了 令 其 他 数据 也 可 以 使 用 ImageZ 类 ， 将 ImageZ 的 输入 参数 改 为 images 所 在 路 
径 ， 其 他 不 变 。 由 于 已 经 将 上 述 的 InageZ、AnnZ、COCOZ 封装 进 了 cocoz.py， 所 以 如 下 代 
码 ， 可 以 直接 调用 它们 : 
import sys 
# 将 cocoapi 添加 进入 环境 变量 
Sys.path.append(rD:\APINcocoapiNPythonAPI) 
from pycocotools.cocoz import AnnZ, ImageZ, COCOZ 
# 为 了 避免 重复 ， 下 面 我 们 查看 一 张 train2017,zip 的 图 片 : 
dataDir = rE\Datacocoimages' # COCO 数据 根 目录 
dataType = train2017" 


img2Z = ImageZ(dataDir dataType) 

下 面 通 过 索引 的 方式 查看 ， 代 码 如 下 : 
from matplotlib import pyplot as plt 

img = img2[78] 

plt.imshow(img) 

plt.show() 

显示 如 图 7.9 所 示 。 
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图 7.9 通过 索引 获取 图 片 


也 可 以 通过 切片 的 方式 获取 多 张 图 片 ， 为 了 可 视 化 的 方便 ， 先 定义 一 个 用 来 可 视 化 的 函数 ， 


代码 如 下 所 示 : 
from IPython import display 
from matplotlib import pyplot as plt 
def use_svg_display(): 
# 用 矢量 图 显示 , 效果 更 好 
display.set_ matplotlib_ formats(svg) 
def show _imgs(imgs, is _ first_ channel=False): 
# 展示 多 张 图 片 
if is_first_channel: 
imgs = imgs.transpose((0, 2, 3, 1)) 
n=len(imgs) 
h,w=4,int(ny/4) 
Use_Ssvg display() 
_ ,ax= pltsubplots(h, w, figsize=(5, 5)) # 设置 图 的 尺寸 
K= np.arange(n).reshape((h, w)) 
foriin range(h): 
forj in range(w): 
img =imgs[k[i, 诺 
ax[i] 由 .imshow(img) 
ax[il[j].axes.get_yaxis().set_ visible(False) 
ax[ijj].set_xticks([]) 
plt.show() 
下 面 看 看 其 中 的 16 张 图 片 ， 如 图 7.10， 代 码 如 下 : 
show_imgs(imgZ[100:116]) 
显示 结果 如 图 7.10 所 示 。 


它 


图 7.10 通过 切片 获取 图 片 


到 目前 为 此 ， 都 是 仅仅 关注 了 COCO 数据 集 ， 而 InageZ 不 仅仅 可 以 处 理 COCO 数据 集 ， 


能 处 理 其 它 以 .zip 形式 压缩 的 数据 集 。 比 如 Kaggle 上 的 一 个 比赛 Humpback Whale 


Identification: https:/www.kaggle.comy/c/humpback-whale-identification， 提 供 的 关于 座 头 鲸 的 数 
据 集 。 该 数据 集 大 小 为 5G 左右 ， 如 果 直 接 解 压 然后 再 处 理 也 是 很 肪 烦 ， 可 以 直接 使 用 ImageZ 
来 读 取 图 片 。 


呈 


首先 ， 先 将 下 载 好 的 allzip 进行 解 有 
import zipfile 

import os 

dataDir = rE\Data\Kaggle' 

fname = all.zip" 

with zipfile.ZipFile(os.path.join(dataDir, fname)) as z: 
Zz.extractall(os.path join(dataDir 'HumpbackWhale)) # 解压 


于 


解压 好 之 后 ， 查 看 一 下 该 数据 集 的 组 成 ， 代 码 如 下 所 示 : 


dataDir =rEXData\Kaggle\HumpbackWhale 
os.listdir(dqataDin 
输出 如 下 代码 : 


[sample_submission.csv', 'test.zip, train.csv, train.zip)] 


可 以 看 出 : 该 数据 集 有 图 片 数据 集 'testzip' 与 "train.zip' 


如 下 代码 所 示 : 

dataDir =rE>Data\Kaggle\HumpbackWhale' 

dataType = 'train' 

imgZ = ImageZ(dqataDir, dataType) 

也 看 看 其 中 的 16 张 图 片 如 图 7.11， 代 码 如 下 所 示 : 
show_imgs(imgZ[100:116]) 

显示 如 图 7.11 所 示 。 


。 这 样 直接 借助 ImnageZ 来 读 取 图 


图 7.11 非 COCO 数据 集 使 用 cocoz 


7.7 本 章 小 结 


本 章 主 要 介绍 了 COCO 数据 及 其 API cocoapi， 同 时 为 了 更 好 的 使 用 cocoapi， 又 自制 了 一 
个 可 以 直接 读 取 .zip 数据 集 的 接口 cocoz.py。 同 时 ，cocoz.py 也 可 以 用 来 直接 读 取 以 COCO 标 
注 数 据 形 式 封装 的 其 他 数据 集 。 


第 三 篇 工具 篇 


第 8 章 计算 机 视 部 的 项 目 管 理工 具 Git 


一 般 地 ， 学 习 深 度 学 习 技 术 需 要 具备 以 下 能 
@ 编 程 语言 : 当前 ， 大 多 数 深度 学 习 框 光 均 以 Python 为 主流 编程 语言 。 您 可 以 
查阅 前 面 章 节 的 Python 知识 清单 简要 了 解 Python 的 基础 语法 ， 如 果 您 想 要 精通 
Python 请 阅读 Python 官方 提供 的 中 文教 程 : https:/docs.python.org/zh-cn/3/。 
@ 版 本 控制 : 一 个 深度 学 习 项 目 不 是 一 天 建成 ， 需 要 不 断 的 调试 和 修复 ， 因 而 学 
习 版 本 控制 是 十 分 重要 的 任务 。 本 文 仅仅 介绍 Git。 
@ 解 读 和 使 用 优质 的 GitHub 资源 : 如 果 所 有 的 项 目 都 从 零 开始 构建 是 完全 没有 
必要 的 ， 将 项 目 建 立 在 优秀 的 GitHub 项 目的 基础 上 ， 继 续 开 发 ， 将 会 为 您 节省 大 量 
的 时 间 和 经 历 。 本 文 将 详细 介绍 如 何 使 用 GitHub 资源 。 
本 章 主要 介绍 如 何 使 用 项 目 管理 工具 Git 来 管理 计算 机 视觉 项 目 〈 当 然 包 括 深度 学 习 项 
目 ) 。 


8.1 Git 基础 简介 


所 谓 的 厂 本 控 玮 


一 


? 


就 是 


内 容 的 一 种 系统 。 


的 ， 即 使 服务 器 上 的 版 本 库 
ee 
色 淹 文件 的 前 
攻击 让 二 司 第: 庆 卫 站 全 “下 全 

Git 数据 库 中 保存 的 信息 都 是 以 文件 内 容 
已 修改 (modified) 夭 
居 已 经 安全 


您 完全 不 


具 可 以 志 


由 该 


已 


版 本 


提交 (committed) 、 
@ 已 提交 表示 数 
来 保存 项 目的 元 数据 和 对 象 数 据 库 的 地 方 ， 可 供 


控制 的 工具 
坏 掉 了 ， 您 


『 志 、 


生 以 及 未 来 


有 很 多 ， 但 是 ， 我 比较 倾向 于 
也 可 以 从 其 他 非 服务 器 的 ! 
有 具 Git 已 经 


版 本 控制 工 ; 


是 记录 了 一 个 时 间 节 点 的 状态 。 


@ 已 修改 表示 已 经 被 Git 管理 


目录 中 。 


， 文 件 的 时 间 轴 完 
”《 同 一 个 时 间 节 点 的 不 同 改动 ) 。 
的 哈 希 值 来 索引 ， 而 不 是 文件 名 。Git 有 三 种 
上 已 暂 存 〈staged) 。 
的 保存 在 本 地 Git 仓库 


j 来 某 种 工具 记录 文件 内 容 的 改变 ， 方 便 未 来 查询 或 者 恢复 


使 用 Git。 


因为 Git 


帮 
全 由 俐 


你 准 


TD 


其 它 计 和 售 


上 进行 
各 好 了 时光 机 借 


目录 〈 即 .git 
机 拷贝 数据 ) ， 


至 于 ， 您 可 以 


出 


目录 ， 是 Git 用 
。 可 以 看 作 


的 文件 被 修改 了 ， 但 还 没 保存 修改 内 容 到 Git 仓库 


@ 已 暂 存 表示 在 工作 目录 《 即 您 磁盘 上 存储 的 你 看 到 的 数据 ) 对 一 个 已 修 改 文件 


的 当前 


包含 在 下 次 提交 的 快照 中 。 


和 版 本 做 了 标记 《〈 即 记录 在 .giVindex 


， 一 般 地 ， 将 


称 为 暂 存 区 域 ) ， 使 之 


些 到 底 在 说 什么 ? 您 可 能 会 有 如 此 疑问 ， 下 面 我 们 将 详细 了 解 这 些 概念 。 

8.1.1 配置 用 户 信息 

一 般 情 况 下 ， 安 装 好 Git 之 后 需要 配置 用 户 信息 ， 用 于 记录 提交 者 的 信息 。 下 面 的 命令 是 
针对 您 使 用 的 机 器 的 全 局 设置 ， 如 果 您 不 需要 针对 全 局 进行 设置 ， 只 需要 删除 参数 --global 即 
可 。 

$git config --global user.name 用 户 名 

$ git config --global useremail 邮箱 

配置 好 了 用 户 信息 ， 之 后 您 便 可 以 使 用 Git 了 。 如 果 您 不 知道 某 一 个 命令 如 何 使 用 ， 您 可 
以 使 用 git help 来 获取 帮助 ， 比 如 ， 

$ git help config 

您 便 轻松 的 获取 git config 的 离线 帮助 文档 。 
8.1.2 创建 并 操作 一 个 本 地 仓库 

创建 一 个 本 地 仓库 ， 只 需要 您 在 工作 目录 下 使 用 命令 git init 即 可 。 此 命令 会 在 工作 目录 的 
根 目录 下 创建 .git 目录 ， 即 为 本 地 Git 仓库 详情 ， 如 图 8.1 所 示 。 但 是 ， 此 时 ， 您 的 Git 本 地 仓 
库 是 空 的 ， 我 们 需要 将 工作 目录 中 的 文件 加 入 Git 的 跟踪 。 我 们 添加 一 个 文件 A.md， 并 写 入 
内 容 : # 测 试 ， 便 会 在 vscode 中 看 到 图 8.2 的 状态 。 我 们 可 以 看 到 画 圈 的 部 分 ， 文 件 Amd 被 


标记 为 U 表示 该 文件 没有 被 Git 跟踪 管理 ， 即 不 在 Git 的 管理 范围 内 。 且 左边 的 状态 栏 也 显示 
了 该 Git 仓库 有 一 个 文件 被 改动 。 为 了 让 Git 管理 文件 A.md， 我 们 需要 执行 命令 : 


图 8.1 git init 初始 化 本 地 仓库 


图 8.2 vscode 显示 git 的 状态 
该 命令 将 文件 A.md 的 内 容 添 加 到 了 Git 仓库 的 索引 区 ， 即 `.giyindex` 文件 之 中 。 在 
vscode 中 的 显示 状态 可 如 图 8.3 所 示 。 


2 立 件 (FP) < 本 (E) 选择 (CS) 查看 Cv) 车 专 至 UK(G)》 调试 (PC) 2CTD) 韦 S 有 DCF) 


ro 资源 管理 吕 划 Arnd 基 
~ 打 3 了 69294 四 2 study > git_stucy > 时 Ammd > atbc 
cm 关 时 Amma alt_stucty 入 1 ##_ 测 | 详 
~ srupy CTfeE) 
口 。 tudy 四 
天 二 放 
ogit_study 呈 
Se 唱 
口 


V - 已 七 / 


区 让 站 已 二 加 xmetzeone MINGW643 7Vd/ 
村 号 Et add 和 A-md 


图 8.3 git add A.md 跟踪 文件 内 容 

从 图 8.3 可 以 看 出 ， 文 件 A.md 的 状态 由 癌变 为 A， 表 示 该 文件 被 Git 跟踪 并 添加 到 了 索 
引 区 。 并 且 与 图 8.2 相 比 ，Git 仓库 在 图 8.3 中 多 了 一 个 文件 .giVindex， 该 文件 即 为 Git 的 索引 
区 ， 也 叫 暂 存 区 。 如 果 工 作 目 录 中 不 仅仅 有 A.md 一 个 文件 ， 您 可 以 使 用 命令 git add . 将 工作 
目录 的 所 有 文件 由 未 跟踪 状态 转换 为 跟踪 状态 ， 并 存储 在 和 暂 存 区 〈 注 意 ， 这 里 说 “存储 ”并 不 
准确 ， 应 该 说 是 将 文件 的 内 容 的 指针 放 入 .giyindex 中 进行 存储 ) ， 以 备 下 次 提交 。 

您 可 以 使 用 命令 git staus -s 查看 仓库 中 文件 存储 的 状态 ， 有 具体 如 图 8.4 所 示 。 其 中 -s 是 
short 的 缩写 ， 让 Git 显示 关键 的 状态 信息 。 图 84 中 可 以 看 出 A.md 的 状态 是 在 索引 区 。 


一 一 ~ 二 一 一 ~ 一 ~ 一 一 一- 一 一 rr 一 ~ 一 一 了 7 D 一 ~ 一 一 ~ 一 一 了 一 一 ~ 一 :7 


$ git add A.md 四 


XinetOxinetzone MINGW64 /d/study/git_study (master) 


$ 
$ git status -Ss 
A A.md 


图 8.4 查看 仓库 文件 状态 

为 了 让 Git 仓库 记录 下 A.md 的 内 容 ， 您 需要 将 索引 区 的 和 暂 存 提交 到 Git 仓库 之 中 ， 输 入 
如 下 命令 即 可 : 

$gitcommit -m "添加 A.md 

效果 如 图 8.5 所 示 ， 可 以 看 到 在 左边 的 状态 栏 的 标记 都 消失 了 ， 说 明 该 仓库 已 经 “干净 
5 


唤 文件 (F) ”编辑 (6 选择 (S) ”查看 (V) ，” 转 到 (G) ”调试 (D) ”终端 (D) ”帮助 (H) A.md - study (工作 区 ) - Visua 
mu] 资源 管理 路 时 Amd 光 
盖 打开 的 编辑 中 study > git_study > 时 Amd > abc 4# 测试 
《3 X 划 A.mmd git_study 2 # 测试 
和 Y STUDY (工作 区 ) 
Y study 
> A 
~“ git_study 
3 六 .9it 
> hooks 
> info 
> logs 
> objects 
> refs 
COMMIT_EDITMSG 
四 config 
description 
HEAD 
index 
时 Amd 


输出 调试 控制 台 终端 
xinet@xinetzone MINGW64 /d/studyy/VEit_study (master) 
员 BEit commit -m “ 深 加 Amd” 
[master (root-commit) 4c483e4] 泊 加 A-md 


1 file changed，1 insertion(C+) 
create mode 166644 A-md 


图 8.5 提交 修改 的 内 容 到 仓库 
可 以 再 次 使 用 命令 git status， 查 看 此 时 仓库 的 状态 ， 如 图 8.6 所 示 。 可 以 看 出 此 时 的 工作 
目录 是 干净 的 。 


问题 “输出 ”调试 控制 台 ”终端 


一 


XinetQxinetzone MINGN64 /d/study/git_study (master) 
$ 8git status 

on branch master 

nothing to commit，working tree clean 


XinetQxinetzone MINGN64 /d/study/git_study (master ) 


$ 国 


图 8.6 查看 提交 后 的 仓库 的 状态 
下 面 我 们 修改 A.md 的 内 容 ， 即 添加 内 容 : 这 是 一 个 测试 文件 。 此 时 可 由 图 8.7 看 出 文件 
A.md 的 状态 显示 为 M， 表 示 此 时 该 文件 有 内 容 被 修改 (modified) : 


呆 ”文件 (FP) ”编辑 (E) ”选择 (S) ”查看 (V) ，” 转 到 (G) 《调试 (D) ”终端 (D) ”帮助 (H) 
资源 管理 器 时 Amd 当 
Y 打开 的 编辑 器 study > git study > 时 Amd > a 
X 时 A.md git study M 工 # 测试 
广 STUDY (工作 区 ) 二 
一 study 本 3 这 是 一 个 测试 文件 。 
> A 
Y git_study 二 
Sr 
hooks 


info 


罗 山 芝 


> 
> 
> logs 
> objects 
> refs 
COMMIT_EDITMSG 
四 config 
description 
HEAD 
index 


量 Amd M 


图 8.7 vscode 显示 文件 被 修改 的 状态 为 M 
接着 同样 使 用 git status 查看 此 时 仓库 的 状态 : 


问题 ”输出 ”调试 控制 台 ”终端 


xinetQ@xinetzone MINGW64 /d/study/git_study (master) 
蔬 git status 
on branch master 
Changes not staged for commit: 
(use "8git add <file>...”"” to update what will be committed) 
(use "8git restore <file>..." to discard changes in working directory) 
modified: A.md 


no changes added to commit (use “8git add”and/or "8git commit -a") 
8.8 git status 查看 修改 的 文件 的 状态 
从 图 8.8 可 以 看 出 此 时 工作 目录 的 文件 A.md 被 修改 了 。 但 是 git status 仅仅 可 以 看 出 文件 
级 别 的 《与 暂 存 区 的 ) 不 同 状态 ， 而 如 果 您 想 要 获悉 文件 的 内 容 之 间 的 不 同 ， 可 以 使 用 git di 人 
获取 工作 目录 中 当前 文件 和 和 暂 存 区 域 快 照 之 间 的 差异 : 


问题 “输出 ”调试 控制 台 ”终端 


$ git diff 


Go -1 11,3 60 
-# 测试 
\ No newline at end of file 
+# 测试 
十 
+ 这 是 一 个 测试 文件 。 
\ No newline at end of file 
图 8.9 git diff 找 不 同 
git diff 本 身 只 显示 尚未 暂 存 的 改动 ， 而 不 是 自 上 次 提交 以 来 所 做 的 所 有 改动 ， 若 要 查看 已 
暂 存 的 将 要 添加 到 下 次 提交 的 内 容 ， 可 以 用 git diff --staged 命令 ; 命令 git diff -- check 可 以 用 
来 检测 可 能 存在 由 空白 符 引起 的 问题 Git 的 … 语法 : git diff A...B 用 于 查找 分 支 〈 之 后 再 介 


绍 ) A 同 A 与 B 的 共同 跟 节 点 的 不 同 。 如 图 8.10 所 示 ， 简 要 的 展示 了 git diff A...B 命令 的 使 用 。 


图 8.10 sgit diff A...B 

当 有 一 些 文件 不 希望 被 Git 追踪 《〈 比 如 一 些 机 密 文 件 ) ， 此 时 可 以 创建 文件 .gitignore 并 将 
那些 不 希望 被 奶 踪 的 文件 名 称号 入 到 .gitignore 中 。 

在 https:/Wgithub.comy/githuby/gitignore 中 提供 了 一 些 .gitignore 模板 可 供 参 考 ， 本 章 简要 介绍 
文件 .gitignore 的 格式 规范 : 

@ 所 有 空 行 或 者 以 # 开 头 的 行 都 会 被 Git 忽略 。 

@ 可 以 使 用 标准 的 glob 模式 匹配 。 

@ 以 〈/) 开头 防止 递归 。 

@ 以 〈/) 结尾 指定 目录 。 

@ 惊 叹 号 〈!) 取 反 要 忽略 指定 模式 以 外 的 文件 或 目录 。 

当 通 过 git status 查看 文件 的 状态 为 均 已 经 暂 存 时 ， 便 可 以 使 用 git commit -m "提交 的 信息 
命令 将 所 有 通过 git add 暂 存 的 文件 内 容 在 数据 库 中 创建 一 个 持久 的 快照 ， 然 后 将 当前 分 支 上 
的 分 文 指 针 〈 即 HEAD) 移 到 其 之 上 。 提 交 时 记录 的 是 放 在 暂 存 区 域 的 快照 ， 并 以 SHA-1L 校 
验 码 进行 标识 方便 之 后 的 版 本 转换 。 更 多 命令 解读 ， 如 图 8.11 所 示 。 


旺 reset … file 


it checkout … file 


图 8.11 Git 常用 命令 


图 中 箭头 指向 表示 文件 的 状态 转换 方向 
如 果 已 经 做 了 多 次 提交 ， 那 么 Git 会 将 提交 的 顺序 进行 记录 ， 通 过 git log 命令 可 以 查看 提 
交 历 史 。 更 多 关于 git log 的 用 法 请 参阅 https:/gitrscm.com/book/zh/v2/Git- 基 础 -查看 提交 历 


每 次 提交 均 被 Git 以 SHA-1I 码 记 录 ， 这 样 一 来 ， 便 可 以 依据 其 将 工作 目录 恢复 到 某 个 过 去 
的 时 间 节 点 。 假 如 ， 已 经 回 到 工作 目录 过 去 的 某 个 时 间 节 点 ， 而 又 想 回 到 未 来 《相对 于 当前 时 


闻 节 点 ) ， 那 么 ， 可 以 借助 git reflog 来 查找 “未 来 ”的 时 间 节 点 ， 然 后 使 用 git checkout ID 进 
行军 权 (ID 指 的 是 SHA-1 码 ) 。 

工作 目录 的 时 间 节 点 的 状态 是 由 HEAD 进行 指示 的 ， 故 而 ， 您 也 可 以 使 用 git reset --hard 
commit_id 不 断 的 切换 HEAD 达到 穿梭 时 间 的 效果 。 

有 时 候 提 交 完 了 才 发 现 漏 掉 了 几 个 文件 没有 添加 ， 或 者 提交 信息 写 错 了 。 此 时 ， 可 以 运行 


git commit -a -m 提交 命令 尝试 重新 提交 《其 中 -a 表示 --amend) 。 


8.1.3 远程 仓库 


上 一 节 已 经 了 解 了 然后 创建 一 个 本 地 仓库 ， 并 对 该 本 地 仓库 进行 管理 。 本 节 我 们 探讨 远程 
仓库 《远程 仓库 是 指 托管 在 服务 器 或 其 他 网 络 中 的 你 的 项 目的 版 本 库 ) 。 因 为 该 仓库 仅仅 作为 
合作 媒介 ， 不 需要 从 磁盘 检查 快照 ， 所 以 一 个 远程 仓库 通常 只 是 一 个 裸 仓 库 〈bare repository， 
一 个 没有 当前 工作 目录 的 仓库 ， 即 工程 目录 内 的 .git 目录 ) 。 

创建 一 个 裸 仓 库 ， 只 需要 : 

$ git clone --bare my_project my_projectgit 

该 命令 实现 了 将 my_project.git 复制 到 my_projectgit 目录 中 的 作用 ， 而 my_projectgit 便 
是 一 个 裸 仓库 。 为 了 证 裸 仓库 发 挥 分 布 式 的 作用 ， 需 要 将 其 放 到 服务 器 上 并 设置 你 的 协议 。 其 
他 拥有 服务 器 的 访问 或 读 写 权限 的 电脑 将 可 以 通过 如 下 方式 进行 复 刻 : 

$ git clone user@gitexample.com:/optygiVymy_project,git 
其 中 ，user@sgit.example.com 代表 服务 器 的 地 址 ， 而 /opVgiymy_project.git 代表 服务 器 上 裸 
仓库 所 在 路 径 。 本 文 不 展开 说 明 如 何 构建 服务 器 ， 如 果 您 想 要 了 解构 建 服务 器 的 详细 信息 ， 可 
以 查看 : 服务 器 上 的 Git - 在 服务 器 上 搭建 Git (https:Wgit-scm.com/book/zh/v2/ 服 务 器 上 的 -Git- 
在 服务 器 上 搭建 -Git) 或 者 GitBlit (http:Wgitblit,com/) 。 本 文 将 使 用 目前 最 大 的 Git 托管 平台 
GitHub 这 一 Git 服务 器 《详细 内 容 见 https:Wgit-scm.com/book/zh/v2/GitHub- 账 户 的 创建 和 
配置 ) 。 
假如 从 GitHub 上 搜寻 到 一 个 不 错 的 仓库 ， 想 要 将 其 加 入 到 自己 的 项 目 中 去 ， 可 以 这 样 做 ， 


如 图 8.12 所 示 。 
4 C) 命 曙 GiHub inc Iu 引 githubcom 女 在 骨 
由 sak 忻 sy 由 Hop 居 %E 由 5303? 蛋 几 3RE9 习 四 x 丰 四 训 8S 四 由?0iR 国 Tensorflow&keras 剧 论文 吉本 周 应 ? 习 国 A 则 59othub 四 字 3 交 大 同 二 怕 web 凰 字 3 话 恒 
DataLoaderX / datasetsome @@OUnwatr- 3 全 Star Gy 
《Code 人 equests 站 Projects 0 Wik 放 上 3 
一 些 数据 焦 处 理 相关 的 API httpsV/dataloaderx.githubjioy/dataset 
加 35 P1 1Trelea 1environme 起 Fetching contributors 


图 8.12 GitHub fork 

点 击 右边 的 fork 按钮 ， 然 后 ， 选 择 您 的 用 户 名 或 者 组 织 ， 将 其 复 刻 下 来 。 这 样 ， 便 有 了 对 
该 仓库 的 读 写 以 及 推送 〈 将 本 地 仓库 同步 到 远 端 仓库 ) 的 权限 。 使 用 git clone 的 命令 将 远 端 仓 
库 克 隆 到 本 地 ， 死 隆 的 网 址 可 以 如 图 8.13 所 示 获 取 。 


间 合 到 GitHub Inc [US gihubcom x 妇 在 由 巴 
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《Code 


一 些 数据 集 处 理 相关 的 AP httpsV/dataloadenx.githubjioydataset Ed 


ch master = New pullrequest Createnewfile 。 Upload iles ”Find File 卫 相 ee 


杷 xnerone 加 5 Clone with HTTPS@ UsessH 
区 se Gift or checkowut with SVN Using the web URL 
coco 昌 
https://github.com/DataLoaderXjdatasetso | 芍 
下 下 二 
Open in Desktop Openin Visual studio 
了 
NS Download ZIP 


图 8.13 sgit clone 
克隆 到 本 地 后 ， 可 以 使 用 git remote -v 命令 查看 远程 仓库 使 用 的 Git 保存 的 简写 与 其 对 应 
的 URL， 比 如 ; 


origin https:VWgithup.com/xinetzone/xinet-matery.git (fetch) 


origin https:Vgithup.comy/xinetzone/xinet-matery.git (push) 
其 中 origin 便 是 别名 。 如 果 您 想 要 拥有 多 个 远程 仓库 ， 可 以 运行 git remote add <shortnamey> 
<url> 添加 一 个 新 的 远程 Git 仓库 ， 同 时 指定 一 个 你 可 以 轻松 引用 的 简写 。 

为 了 方便 说 明 我 们 创建 两 个 本 地 仓库 serverD.git 与 serverR.git， 然 后 在 目录 T 中 添加 这 
两 个 仓库 。 目 录 工 下 有 两 个 远程 仓库 ， 它 们 的 别名 分 别 为 : D 与 R。 现 在 可 以 在 命令 行 中 使 用 
字符 串 D 来 代替 整个 URL。 例如 ， 如 果 你 想 拉 取 D 所 指 代 的 仓库 ,可 以 运行 git fetcth D， 这 个 
命令 会 访问 远程 仓库 ， 从 中 拉 取 所 有 你 还 没有 的 数据 。 执 行 完成 后 ， 你 将 会 拥有 那个 远程 仓库 
中 所 有 分 支 的 引用 ， 接 着 ， 运 行 git merge D/master 命令 便 可 以 将 D 合并 到 当前 目录 。 

如 果 你 使 用 git clone 命令 殉 隆 了 一 个 仓库 ， 该 命令 会 自动 将 其 添加 为 远程 仓库 并 默认 以 
“origin” 为 简写 。 

如 果 在 当前 工作 目录 下 做 了 修改 ， 并 且 ， 想 要 将 其 分 享 ， 只 需要 执行 git push [remote- 


name] [branch-name] 命令 即 可 。 比 如 ; 


$git push D master 


如 果 您 想 查 看 远程 仓库 的 更 多 详细 信息 ， 可 以 运行 gitremote show [remote-name]; 如 果 您 
想 要 重 命名 引用 的 名 称 可 以 运行 git remote rename; 如 果 您 想 要 删除 远程 仓库 可 以 运行 git 


remote rm 或 者 git push origin --delete branch_name。 


8.1.4 标签 


在 切换 不 同 的 时 间 节 点 时 ， 可 以 借助 commit 的 JP， 但是， 此 ID 太 长 了 并 且 不 好 记忆 。 

为 了 人 们 可 以 更 好 的 管理 历史 节点 ， 我 们 需要 给 那些 重要 的 历史 节点 打上 标签 ， 这 样 一 来 ， 人 

们 通过 这 些 有 实际 语义 的 标签 进行 管理 将 更 加 方便 。 
Git 主要 使 用 两 种 类 型 的 标签 : 轻 量 标签 〈lightweight) 与 附注 标签 (Cannotated) 。 
1. 附 注 标签 


附 广 标签 的 创建 可 以 这 样 : 

$gittag -av14 -m "我 的 版 本 1.4" 

使 用 git tag 或 者 git tag -Lv1.4.1*#' 列 出 当前 的 标签 。 或 者 使 用 git show v1.4 命令 碍 看 标签 
言 息 与 其 对 应 的 提交 信息 。 

2. 轻 量 标签 

轻 量 标签 不 需要 提供 commit 信息 ， 只 需 

$git tag v1.4-1q 

亦 可 以 对 历史 提交 的 某 个 commit ID 进行 打 标 ， 比 如 : 

$gittag -av11ead28ed 

3. 管 理 标签 

可 以 使 用 命令 git push origin [tagname] 将 标签 推送 到 远 端 ， 如果 想 要 一 次 推送 多 个 标签 ， 
可 以 是 使 用 git push origin --tags。 
当然 ， 也 可 以 使 用 命令 gittag -d <tagnamey> 删除 标签 。 如 果 也 要 将 远 端 的 标签 删除 ， 可 以 
使 用 命令 git push <remote> :refs/tags/<tagname> ， 比 如 : 


烛 


$git push origin :refs/tagsAv14-1q 


8.1.5 分 文 


分 支 可 以 想象 为 不 同 维度 的 平行 宇宙 ， 在 同一 个 时 间 节 点 可 以 并 行 的 存在 不 同 的 支线 来 发 
展 项 目的 不 同 功 能 。 专 业 点 的 说 法 : Git 的 分 支 仅仅 是 指向 提交 对 象 的 可 变 指 针 ，《〈Git 的 默认 
分 支 名 称 为 master) 每 次 进行 git commit 操作 ， 都 将 会 移动 该 指针 。 分 文 就 好 比 河 流 拥 有 的 文 
流 ， 只 不 过 在 这 些 文 流 上 面 存在 着 无 法 移动 的 “指针 ” (〈gittag) 与 可 以 移动 的 “指针 ” (〈git 
branch) 。 

分 文 的 创建 需要 使 用 git branch， 比 如 : 

$git branch develop 

可 以 移动 ? 那么 我 们 该 如 何 判断 工作 目录 所 处 的 状态 呢 ? 《简单 点 说 ， 我 们 该 如 何 判断 我 
们 “now” 的 位 置 。) 这 个 很 简单 ，Git 中 还 有 一 个 特殊 的 指针 HEAD， 它 总 是 指向 当前 所 在 的 
分 文 所 在 的 时 间 节 点 。 您 可 以 使 用 git log --oneline --decorate 命令 查看 各 个 分 支 的 指针 。 

您 知 要 在 不 同 的 分 支 之 间 进 行 跳 转 ， 可 以 使 用 git checkout [分 支 名 ] 进行 切换 。 有 没有 命 
令 将 创建 分 文 与 切换 分 支 进行 合并 的 呢 ? 当然 有 了 ， 它 就 是 : git branch -b < 分 支 名 >。 

关于 分 支 的 命令 还 有 : 

@ 合 并 : git merge branch_name 


@ 删 除 : git branch -d branch_name 


8.1.6 vscode 与 Git 集成 


为 了 让 Git 更 好 的 与 vscode 集成 ， 提 供 更 丰富 的 commit 信息 ， 您 可 以 这 样 : 
$git config --global core.editor "code --wait 


将 vscode 作为 Git 的 内 核 编辑 器 。 


8.2 使 用 Git 管理 项 目 


前 面 介 绍 了 Git 的 基础 知识 ， 本 文 剩余 部 分 将 介绍 如 何 利 用 Git 更 好 的 管理 您 的 项 目 。 


8.2.1 对 Microsoft Office 进行 版 本 控制 


最 新 版 的 Git， 已 经 支持 对 .docx 的 控制 。 对 于 使 用 命令 行 ， 大 多 数 人 都 是 有 点 抵触 的 ， 好 
在 有 需求 就 有 市 场 ， 在 Windows 系统 下 使 用 Git， 我 们 可 以 借助 一 个 十 分 强大 的 GUI 软件 : 
TortolseGit 。 

首先 ， 我 们 需要 下 载 并 安装 TortoiseGit。 下 载 网 址 : https:/Wtortoisegit.org/download/， 我 们 
选择 64 位 进行 下 载 ， 并 且 需 要 下 载 中 文 语 言 包 ， 如 岁 8.14 所 示 。 


人 例 台 “httpsV/tortoisegitorg/download/ 


由 ja 凰 Hep 由 站 有 由 5tsy? 习 由 FE? 习 央 XM 同和 5 出 鸡 ?S0R 凰 Tensorhow&rkera 轩 ix 模板 国 天 辣 ? 习 同 A 图 39oihub 性 学 3 资源 赂 地 模 目 


please make sure that you choose the right installer for your PC, otherwise the setup will 亿 计 


for 32-bit Windows for 64-bit Windows 
二 Download TortoiseGit 2.8.0 - 32-bit (-16.4 NiB) | 机 Download TortoiseGit 2.8.0 - 64-bit (-19.0 NiB) 


Pre-Release Builds 
Before reporting an issue, please check that your problem isn't fixed in our latest preview release. Also see What to do if a crash 
happened? 


曾 Language Packs 


The language packs contain no standalone localized version of TortoiseGit, you need TortoiseGit from above. Each language pack has a 
iownload size of 2-6 MiB 
Languase Code Completeness| 32 Bit 64 Bit 
图 bulgarian bg 52% | 上 志 Setup | 二 Setup 
围 catalan ca 98% | 志 Setup | 二 Setup 
3 国 Chinese, simplified | zh_CN 100% | 二 Setup | 二 Setul 
国 Chinese, traditional | zh_TW 99% | 志 Setup | 二 Setup 
加 czech cs 91% | 志 Setup | 志 Setup 
Danish da 44% | 二 Setup | 二 Setup 
四 nurrh nl RRSK | 二 Sohin | 二 Setun 


图 8.14 TortoiseGit 下 载 
下 载 好 之 后 ， 按 照 提 示 默 认 安 装 即 可 ， 但 是 ， 安 装 中 文 包 的 最 后 一 步 需要 如 图 8.15 所 示 
选择 打 勾 。 


硬 chinese (simplified) Languagepack forTortoiseGit 安装 .， 一 藉 


Chinese (simplified) Languagepack for 
TortoiseGit 安装 向 导 己 完成 


上 ESPEE 风 国电 击 成 提 出 安装 站 中 


ww| Configure TortoiseGit to use this language 


上 而 


图 8.15 安装 TortoiseGit 中 文 包 


关于 TortoiseGit 的 使 用 细节 可 参考 其 手册 
被 集成 在 了 右键 快捷 键 中 ， 如 图 8.16 所 示 。 


: https:/Wtortoisegit.org/docs/。 其 实 ， 
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8.16 TortoiseGit 集成 于 右键 


从 图 8.16 可 以 清晰 的 看 到 Git 的 大 部 分 功能 都 被 集成 到 了 右键 快捷 键 中 。 使 用 TortoiseGit 
比较 差异 将 比较 简单 ， 如 图 8.17 所 示 。 


沁 到 半 建 而 同 ~ > 园 全 部 选择 
图 罗 X 王 表 站 区 忆 
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回 本 Adoa 亏 || 园 全 用 Windows Defender3 隔 、 
” 。 国 Bxlex 01 人 G 在 三 昕 高 级 PDF 六 入 基 中 转换 成 PDF 
人 号 ”在 住 昕 高 级 PDF 二 竹 吝 中 会 并 文件 . 
| 近 3# 强 
打开 方式 (H) 
kk 
人 打 予 访问 权限 (G) > 
视 党 入门 必 条 他”Git 理 交 (C) -> master 
恤 TortoiseGitm >》 以 比 改 兰 SD) 
加 到 添 )0 到 压 绽 件 (A). 筷 与 CNUsersWzmWDesktopNVesWB.xlsx 比较 差异 
重 二 oo 到 "Arorm 筷 ， 与 上 一 版 本 比较 差 恒 (D) 
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如 EaArar 并 Email 鲍 后 二 服 基 进程 
会 “上传 到 百度 网 多 候 版 本 分 支 图 (G) 
5 检查 已 修改 (中 
通过 QQ 发 送 到 
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创建 快 反方 式 (S) 设置 (5) 
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%ch 1 个 项 目 12.0 KB 属性 (R) 
图 8.17 TortoiseGit 比较 docx 
接着 ， 将 打开 Word， 界 面 如 图 8.18 所 示 。 


上 为 “后 宇 铝 SN 入 法 癌 半 。 戎 村 转 简 作 门 X 站 外 站 沪 女 亚 迹 囊 注 EN 号 简单 标记 - [四 旬 上 -处 自 
四 aa 从 其 m L L 有 | 因 辣 下 目 ] au 昌 
再 。。 硬汉 滞 目 新建 注 显示 批注 修订 接受 ”无 翅 kt 蒋 ee 个 记 
ss 富 简 村 苇 失 市 辣 春 格 - 5 到 杰 
功用 语言 中 文 简要 苇 换 批注 修 林 开 改 tt 防 名 护 至 迹 
修订 X tasy 档 X | 原文 导 (A-d5b425f0.000,docx - 效 新 伟 ) 
记 - 入 aas 他 。 | 这 是 一 个 被 修改 的 测试 哦 ! ， 这 是 一 个 测试 ! 。 
Comparison 有 于 了 
方式. 
避 文 本 中 的 标 多 应 用 标题 Competon 浊 X 了 
被 修改 的 * 
Comparison 医 和 了 
威 , 


俱 订 的 文 赤 (A.docx - Comparison) 


这 是 一 个 被 修改 的 测试 吕 ! 。 


图 8.18 TortoiseGit 比较 docx 界面 


这 样 的 界面 将 会 更 加 直观 ! 
TortoiseGit 的 强大 不 仅仅 如 此 ， 它 还 可 以 直接 比较 .xlsx、.pptx 等 。 换 名 话说 ，TortoiseGit 
与 Microsoft office 完美 的 结合 在 了 一 起 ， 为 office 管理 提供 了 一 个 十 分 高 大 上 的 Git 支持 。 


8.2.2 TortoiseGit 的 使 用 


下 面 我 们 演示 如 何 使 用 TortoiseGit 操作 项 目 ? 首先 ， 从 服务 端 〈 如 局 域 网 架设 的 Git 服务 
器 ，GitHub 等 ) 获取 远程 项 目的 地 址 : ssh:WIxw@192.168.42.30:29418/test.git〈 此 地 址 是 我 通 
过 GitBlit 架设 的 服务 器 创建 的 一 个 空 的 裸 库 ) 。 其 中 ，lxw 表示 远程 裸 库 的 用 户 名 ， 如 图 8.19 
所 示 。 


5lhowve192 168.42.3029418/tex- 伟 


且 洒 0) Deest 


图 8.19 TortoiseGit clone 


需要 输入 lxw 对 应 的 密码 ， 如 图 8.20 所 示 。 


9 .EECEEz| 


BEit 


exe clone --progress -V "ssh://1Xxw@192.168.42.39:29418/test.git"”"D:\X 
[test” 


[Cloning into 'D:\VX\test' 


| 关 | 中 止 


图 8.20 TortoiseGit clone 密码 
因为 是 刚刚 克隆 〈git clone) 的 仓库 ， 其 中 的 暂 存 区 与 工作 目录 均 是 干净 的 ， 所 以 ， 目 录 
图 标 上 会 有 蓝 色 的 对 勾 ， 如 图 8.21 所 示 。 
dg 


test 


网 8.21 test 
下 面 使 用 vscode 打开 工作 目录 test 并 创建 一 个 git bash 终端 。 该 项 目 已 经 存在 自述 文档 
(README.md) 与 .gitignore〈 令 Git 忽视 的 文件 列表 ) 。 为 了 更 好 的 展示 TortoiseGit 与 的 集 
成 效果 ， 下 面 我 们 将 演示 如 何 利 用 TortoiseGit 管理 .docx 文档 。 
先 创建 A.docx 并 写 入 内 容 : 我 是 A。 由 于 A.docx 没有 加 入 到 Git 管理 ， 所 以 其 图 标 为 空 ， 
如 图 8.22 所 示 。 
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司 图 片 太 
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全 OneDrve 


图 8.22 创建 A.docx 


接着 ， 将 A.docx 纳入 Git 管理 ， 如 图 8.23 所 示 。 
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2Q open with Code 答 创 畦 补丁 序列 . 
授予 访问 权限 (G) >| 过 应 用 补 本 序列 .… 
一 呆 Git 同步 . 二 语 9) 
人 ”Git 担 交 (C) -> "master"… 里 帮助 (H) 
.关于 (B) 


"om “https://github.com/xinetzon 


图 8.23 右键 添加 
接着 弹出 一 个 窗口 ， 列 出 所 有 未 被 加 入 到 Git 管理 的 文件 〈 即 git add 操作 ) ， 如 图 8.24- 
8.25 所 示 。 


肤 加 入 完成 ! = 回 - X 义 
操作 路径 
命令 加 入 


已 添加 Adoc 
完成 ! ”成功 (62 ms @ 2019/9/17 9:19:05) 


提交 (9 | 确定 取消 


图 8.24 Tortoise add〈 一 ) 


医 2 CNUsers\xinet\DesktopNtest - 加 入 - Tortoi.， ”一 口 兴 


路 径 扩展 名 
未 受 版 本 控制 的 文件 一 
回 轨 A.docc .docx 


回 全 选 /取消 (A) 器] 包括 忽略 文件 (TD 
2 
图 8.25 Tortoise add 


自 此 ， 完 成 了 将 A.docx 纳入 Git 的 index 〈 即 暂 存 区 ) 的 操作 ， 刷 新 目录 ， 可 以 看 到 
A.docx 多 了 一 个 蓝 色 的 + 图 标 ， 如 图 8.26 所 示 。 


Oo 相册 


.9it .gitignore Adocx README. 


图 8.26 完成 git add 
至 此 ， 如 果 没 有 其 他 需要 加 入 到 暂 存 区 的 文 要 ， 可 以 将 这 些 暂 存 区 的 信息 提交 (〈git 
commit) 到 本 地 仓库 ， 并 写 上 简要 的 说 明 ， 如 图 8.27-8.28 所 示 。 


坦 在 (V) > 
排序 方式 (O) 六 
分 组 依据 (p) > 
刷新 (6 


自 定 义 文件 夫 ( 有 … 


粘贴 (p) 

粘贴 快捷 方式 (S) 

撤消 删除 (U) Ctrl+Z 
合 Git GUI Here 
合 Git Bash Here 
QQ open with code 


授予 访问 权限 (G) 沪 
虽 Git 同步 … 
全”Git 埋 交 (C] -> "master"… 
膨 ' TortoiseGit(D) 》 
新 建 [W) > 


尾 性 (R) 


图 8.27 提交 到 本 地 master 


全 ' CN\Users\Winet\DesktopNtest - 捏 交 - TortoiseGit 一 口 X 


提交 至 : master 口 新建 分 支 
日 志 信 息 (M): 
+ 


Signed-off-by: ]XW 《xinzoneG@out1look .com> 


1/3 
口 修改 上 次 提交 (L) 
回 设 置 作者 日 期 (D) 2019/ 9/17 ”加 ~ | | 9:46:16 多 
口 设 置 作 者 (T) | 添加 "Sioned-o 作 by(S) 


训 更 列表 《〈 观 击 文件 查看 差异 ) : 
选中 : ”全 部 (A) 无 (N) 未 版 二 控制 已 版 本 控制 已 添加 已 天 除 已 对 必 文件 子 入 块 


路 径 扩展 名 ”状态 添加 行 数 。 胜 除 行 数 
回 中 A.doce .docc 已 添加 = 


少 


回 显示 未 受 版 本 控制 的 文件 (U) 忆 驻 市 工 个 文件 , 总 计 工 个 文件 
口 不 自动 选择 子 模块 查看 补 >> 
显示 整个 工程 (W) 
口 仅仅 江 息 (Y) 提交 (D) [| [ 取消 |][ 站 助 | | 
] 
图 8.28 写 上 简要 的 说 明 


如 果 还 想 要 与 其 他 人 共享 编写 A.docx， 需 要 将 其 推送 〈git push) 到 远 端 服务 器 ， 如 图 
8.29 所 示 。 


青 多 新 建 项 目 ~ 回 辐 打开 | 本 汪 人 这 


司 ] 径 松 访问 ~ 纺 语 浅 拉 取 (P)… 
上 扫 ”获取 卓 .… 
和 可 户 si 妇 | .人 扒 尖 (H)-- 
新 建 打开 
恨 、 比 较 差 异 (D) 


尽 、 与 上 一 版 本 比较 差异 (D) 
淮 显 示 日 志 (D 
潜 旦 示 引 用 记录 (R) 


4 个 、 济 点 引用 
饮 后台 服 务 进程 
README.md 俱 版 本 分 支 图 (G) 


个 、 版 本 库 浏览 器 (R) 
目 夺 检查 已 修改 ( 


鲍 变 基 (rebase).… 
辣 ” 贮 芒 更改 
4 ”二 分 定位 - 开始 
埋 看 W > | 人 解 天 冲突 (D)… 
排序 方式 (O) 富 | 本 空 -= 
分 组 依据 (p) | es 
剧 新 (日 哺 切 欣 / 检 出 (wW) 
自 定 义 文件 夫 ( SHIM= 
他 ”创建 分 支 (B)… 
粘贴 (P) 症 。 创建 标签 (D.。 
车 贴 快 十 方式 (S) 本 导出 9- 
捞 消 删除 (U) Ctrl+Z = 
代 GitGUIHere 十 渗 (A) 
人 Git Bash Here 十 添加 子 模块 … 
Eeesggdsoss 共 创建 补丁 序列 - 
拥 予 访问 权限 (G) > | 萝 应 用 补丁 序列 … 
史 Git 同步 … 趣 、 设置 (S) 
伸 ”Git 提交 (C) -= "master"… 里 帮助 (H) 
是 TortoiseGitID >| 色 关于 (9) 
新 建 (WwW 区 
尾 性 (R) 


图 8.29 git push 
其 他 人 只 需要 在 他 们 克隆 的 副本 进行 拉 取 〈git pull) 便 可 获得 更 新 ， 如 图 8.30 所 示 。 


二 并 拉 取信 AT 


和 了 消 玉 获取 (中 
3 进 择 疙 扒 关 HH 
尽 比较 差异 (D) 


又 与 上 一 版 本 比较 差异 (D) 


假 版 本 分 支 图 (G) 
和合， 版 本 库 浏览 器 (R) 
目 5 检查 已 修改 (有 
社交 笃 (rebase)… 


多 厅 ”解决 冲突 (D)… 
>| 四 过 珀 M- 
>| 了 清 昌 O- 
哺 切 次 / 检 出 (W) 
闻 合并 (M)… 
他 创建 分 支 B) 
两 ”创建 标签 (D. 
3 荡 导出 00-. 
拉 湛 番 除 (U) cn | 一 一 
合 Git GUI Here 十 添 hn(A… 
全 Git Bash Here 十 添加 子 模块 … 
2 区 open with code 之 创建 让 丁 序列 
授予 访 问 权限 (G) > | 萝 应 用 补丁 序列 
喝 Git 同步 - 和 丰 认 Eg 
伸 ”Git 得 交 (C) -> “master… 里 帮助 (H) 
尘 TortoiseGitID) >| 色 关 ) 
新 建 (W) > 
尾 性 (R) 


图 8.30 git pull 

如 果 某 人 开 拉 取 之 后 对 A.docx 进行 了 修改 ， 添 加 内 容 : 

做 了 test1。 

而 自己 也 做 了 修改 ， 添 加 内 容 : 

学 习 了 M。 

之 后 ， 先 将 变动 推送 到 了 远 端 。 紧 接着 玉 也 将 其 做 的 改动 推送 到 远 端 ， 由 于 你 们 所 做 的 
改动 有 冲突 ， 所 以 推送 失败 ， 如 图 8.31 所 示 。 


需 DAXVtestl - GIt 和 令 秋 民 - 1ortolseGIt Er 


@ 


hint: not have locally。This is USually caused by another repository pushing ^ 
hint: to the same ref。 You may want to first integrate the remote changes 
hint: (e.g.， "8git pull ...') before pushing again. 

hint: See the 'Note about fast-forwards' in "8git push --help' for details. 


git 未 能 顺利 结束 〈 退 出 码 1) (5216 ms @ 2619/9717 星期 二 上 午 19:16:47) 


拉 到 四. 加 世 - 关闭 =] 上 [lt 
图 8.31 存在 冲突 


解决 冲突 的 办 法 有 两 种 : 


员 


里 整个 项 目的 人 ) ; 
(2) 先 将 远 端 的 更 新 获取 (〈gitfetch) 后 ， 如 图 8.32 所 示 ， 之 后 再 解决 冲突 。 


乱 : D'VXVtestl - 获取 - TortoiseGit 


9 远 端 (R) oo 芝 


其 他 URLCU): 
远 端 分 支 (B): mmaster 
选项 
并 合 (5) 不 提交 (M) 
非 Fast Forward 仅 快 进 式 (N) 
男 标 签 默认 : 可 达 (Reachable) 
男 修 葛 


0 


回 自动 加 载 Putty 密 钥 (K) 管理 远 应 
加 下 载 后 运行 变 基 (U) 


| 磅 | 了 消 | | 助 | 


图 8.32 sgit fetch 
更 多 的 关于 TortoiseGit 的 使 用 可 以 参考 其 官方 文档 https:Wtortoisegit.org/docs/， 本 文 便 不 
再 引申 。 


本 
8.3 本 章 小 结 
本 章 主要 介绍 学 习 计算 机 视觉 需要 准备 的 工具 : Git 与 GitHub。 但 考虑 到 部 分 人 不 喜欢 命 
令 行 操作 ， 本 章 引 入 Git 的 GUI 工具 : TortoiseGit。 需 要 学 习 Git 是 一 个 有 点 儿 痛 苦 的 任务 ， 
但 是 ， 如 果 您 学 会 Git， 那 么 您 会 发 现 您 将 会 离 不 开 它 ， 它 为 您 的 学 习 和 工作 带 来 极 大 的 便利 。 


第 9 章 构建 属于 目 己 的 计算 机 视 党 开源 项 目 


本 章 以 GitHub 作为 Git 的 远 端 服务 器 来 构建 个 人 项 目 ， 而 不 考虑 个 人 或 者 公司 的 私有 服 
务 器 。 但 是 如 果 私 有 服务 器 已 经 搭建 好 了 ， 可 以 直接 把 它 当 作 GitHub 进行 操作 即 可 。 因 为 ， 
本 文 介 绍 的 创建 项 目的 方法 同样 适用 于 私有 服务 器 ， 主 要 区 别 是 提供 的 服务 器 的 地 址 不 同和 仓 
库 的 使 用 权限 不 同 而 已 。 本 节 内 容 参 考 GitHub 官方 提供 的 开源 项 目的 教程 : 
https:/opensource.guide/zh-cn/。 


9.1 创建 一 个 项 目 


(1) 在 GitHub (https:/github.com/) 上 创建 一 个 仓库 ， 取 名 为 cv-actions， 接 着 选择 一 个 
LICENSE (如 GNU GPL v3.0) 和 gitignore 〈 选 择 Python) 。 然 后 如 图 9.1 所 示 ， 选 择 Settings。 


只 xinetzone / cv-actions 人 @Uunwatchv 1 广 Ssar 1 出 Fork 0 


Code lssues 0 Pull requests 0 Actions Projects 0 Wiki Security > 


Options Settings 


Collaborators _ 
Repository name 


9.1 GitHub 的 Settings 


接着 在 该 页 面 往 下 滑动 鼠标 ， 找 到 GitHub Pages， 选 择 主题 ， 随 后 便 会 生成 一 个 网 址 ， 示 
例如 图 9.2 所 示 。 


GitHub Pages 


GitHub Pages is designed to host your personal, organization, or project pages from a GitHub repository. 


wYour site is published at https://xinetzone.github.io/cv-actions/ 
Source 
Your GitHub Pages site is currently being built from the master branch. Learn more. 


master branch ~ 


Theme Chooser 
Select atheme to publish your site with a Jekyll theme. Learn more. 


Your site is currently using the Cayman theme. 


Change theme 


图 9.2 GitHub Pages 用 于 创建 项 目 网 站 
接着 ， 点 击 图 9.3 中 的 Edit， 填 写 项 目的 简介 : 


日 xinetzone / cv-actions @unwatchv 1 让 star 1 SFork 0 
《 Code lssues 0 Pull requests 0 Actions Projects 0 Wiki Security Insights Settings 

计算 机 视觉 实践 https://xinetzone.github.io/cv-actions/ Edit 
computer-vision mxnet pytorch python “Manage topics 


图 9.3 编写 项 目 简介 


至 此 ， 便 完成 了 GitHub 网 站 的 初 建 。 
《2) 将 远 端 的 项 目 克 隆 到 本 地 。 首 先 ， 按 照 图 9.4 所 示 的 操作 获取 项 目的 远程 仓库 地 址 
(https:/Wgithub.comy/xinetzone/cv-actions.git) : 


名 3commits ?1branch 


New pull request 


Branch: master ~ 


鳄 xinetzone update READMEmd 


S 0 releases 


Initial commit 


地 1environment 


坚 1contributor 本 GPL-3.0 


Create newfile Upload files ”Find File Clone or download ~ 


clone with HTTPS @ Use SSH 
Use Git or checkout with SVN using the web URL. 


https://github.com/xinetzone/cv-actions. | 家 


Open in Desktop Open in Visual Studio 


Download ZIP 


国 .gitignore 
司 LICENSE Initial commit 
上 国 READMEmd Update README.md 
国 -config.yml Set theme jekyll-theme-cayman 
国 README.md 
图 9.4 获取 远程 仓库 地 址 
《3) 在 本 地 电脑 端 打 开 vscode 并 在 终端 输入 ; 


$git clone https:Wgithub.comy/xinet 
$ cd cv-actions/ 


这 样本 地 端 便 刘 


有 有 一 个 cv-actio 


对 于 一 个 项 目 来 说 ，README (自述 文 档 ) 是 
你 的 项 目 ， 还 解释 了 你 的 项 目 


说 明 人 们 如 何 使 
在 自述 文件 中 ， 尝 试 回 答 以 下 问题 
@VVhat: 
@Vhy: 
@How: 
@Help: 
@VWho: 


如 何 开始 ? 


其 中 的 几 


的 自述 文档 README2 。 


(Chttps:/xinetzone.github.io/zh-CIVf7c6a6b8.html) ;ii 
接着 创建 一 些 目录 ， 这 些 目录 均 代 表 项 目的 不 


$ mkdir data draft models outputs 


@data/: 数据 的 存放 


如 果 需 要 ， 我 可 以 在 哪里 获得 
谁 维护 和 参与 项 目 ? 
参考 [@PurpleBooth](https:/github.com/PurpleBooth ) 的 README 模板 1 编 


Zone/cv-actions.git 


ns 的 副本 。 


9.2 修改 README 


二 
为 什么 引 


这 个 项 目 做 什么 ? 
为 什么 这 个 项 目 有 用 ? 


帮助 ? 


重要 的 。 自 述 文件 不 仅仅 是 用 于 展示 
要 ， 以 及 它 可 以 为 你 的 用 户 做 什么 。 


7 


避 


标 可 以 参考 github 编 


app notebook 


@models/: 模型 的 参数 存储 


@outputs/: 模型 的 输 昌 


@app/: 存放 相关 


8 结果 


的 API 


写 README 时 如 何 获取 fork 等 


行 设计 。 
同 功能 ， 即 在 根 目 


录 打 开 终 端 并 输入 : 


@notebook/: 存放 jupyter notebook 等 相关 的 文件 


@drafy: (可 以 放置 在 任何 位 置 ) 存 放 一 些 不 成 熟 的 或 者 未 天 


1https://gistgithub.com/PurpleBooth/109311bb0361f32d87a2 


2https://github.com/xinetzone/cv-actions/blob/master/README.md 


属于 自己 项 目 


图 标 


发 完成 的 一 些 相关 内 


容 ， 不 被 上 传 到 github 
其 中 data/，models/，draft 加 入 到 .gitignore 不 被 git 管理 。 


列 
、 。 人 \ 汪 十 双 。 AN 一 士 
进入 项 目的 mnsights 栏目 ， 选 择 Community， 可 以 看 到 如 图 9.5 所 示 的 结果 。 
局 命 面 GitHub, Inc. [US] | httpsWgithub.com/xinetzone/cv-actions/community 衣 
凰 搜 二 凰 help 凰 效 程 央 我 的 字 习 凰 深度 字 习 周 文献 凰 资源 站 凰 数学 知识 屿 Tensorrlow& keras 凰 论文 模板 周 语言 字 习 央 Al 凰 我 的 gthub 图 学 习 资源 凰 建 模 图 web 
| Communi ty Heres how this project compares to recommended community standards 
Traffic 
Checklist 
Commit ee 
Code freq y w Description 
Dependency grap 
w README 
Network 
Forks 外 Code of conduct Add 
e@ Contributing Writing contributing guidelines ”Add 
w Licens 


外 15Sue templates 


鳃 Pull request template 


图 9.5$ 项 目 配置 检查 列表 
图 9.5 列 出 了 一 个 比较 规范 的 项 目 需要 满足 的 文件 的 清单 。 本 文 将 逐渐 填充 检查 清单 。 


9.3 编写 页 献 者 指南 


编写 CONTRIBUTING.md“〔〈 贡 献 者 指南 ) 文档 有 助 于 贡献 者 们 快速 了 解 如 何 加 入 本 项 目 
的 贡献 之 中 。 下 面 介 绍 如 何 编写 贡献 者 指南 ? 
一 般 地 ， 使 用 热情 友好 的 语气 并 提供 有 具体 的 贡献 建议 可 以 大 大 提高 新 人 的 参与 度 。 比 如 ， 
可 以 在 开头 这 样 引入 : 
首先 ， 非 常 感谢 您 为 cv actions 提供 新 鲜血 液 。 正 是 更 多 像 您 这 样 的 人 ， 使 得 cv actions 将 逐渐 发 展 为 
一 个 强大 的 计算 机 视觉 社区 。 


9.3.1 准备 工作 1: 创建 Issue 与 PR 模板 


对 于 一 个 比较 健全 的 社区 ， 需 要 拥有 一 个 Issue templates， 如 图 9.5 所 示 。 它 可 以 令 Issue 
的 参与 者 有 着 一 个 统一 而 清晰 的 框架 ， 同 时 ， 也 方便 其 他 人 参与 Issue 的 讨论 之 中 。Issue 
templates 的 创建 可 以 直接 从 GitHub 中 需要 选择 一 个 模板 ， 之 后 点 击 绿色 按钮 Propose changes 
提交 修改 即 可 ， 如 图 9.6 所 示 。 


Add template: select ~ 


Bug report 
Standard bug report template 


Feature request 
Standard feature request template 


Custom template 


Blank template for other issue types 


图 9.6 添加 Isue templates 
当然 ， 也 可 以 添加 多 个 模板 甚至 自 定义 模板 具体 细节 见 如 下 网 站 : 


https:/help.github.comy/cn/articles/creating-a-pull-request-template-for-your-repository 。 

这 些 模 极 仅仅 是 一 个 雏形 ， 还 需要 与 后 续 的 工作 进行 匹配 。 所 以 ， 刚 开始 先 不 用 管 这 么 多 ， 
先生 成 这 些 模 板 再 说 。 如 果 需 要 创建 有 多 个 作者 的 提交 ， 可 以 参考 
https:/help.github.comy/cmn/articles/creating-a-commitrwith-multiple-authors。 

还 需要 在 /.github/ 下 创建 文档 PULL_REQUEST_TEMPLATE.md 用 于 Pull request〈 拉 取 请 
求 ，PR) 的 生成 。 因 为 编写 良好 的 PR 说 明 可 以 加 速 审阅 者 了 解 代码 的 预期 结果 的 进程 。 它 们 
也 是 帮助 跟踪 并 应 对 每 次 的 commit〈 如 测试 、 添 加 单元 测试 和 更 新 文档 ) 应 执行 的 工作 的 好 
方法 。 更 多 优秀 模板 参考 ; https:Wgithub.com/XNoteWysgithub-issue-templates。 下 面 以 一 个 简单 
的 例子 来 说 明 PR 模板 的 样式 : 

非常 感谢 您 参与 到 cv actions 的 项 目 中 来 ， 但 为 了 创建 一 个 良好 的 社区 环境 ， 在 提交 PR 
之 前 ， 请 确保 已 经 满足 下 列 要 求 : 

@[]code 是 否 已 经 还 存在 错误 或 者 警告 信息 
@f[] 正 在 使 用 的 术语 〈terminology) 是 否 是 社区 约定 的 或 者 已 经 被 公认 的 
@[] 是 否 已 经 做 过 单元 测试 “unit tests ) 

一 个 相对 优秀 的 PR 应 该 包含 如 下 问题 

@ 做 了 什么 改变 ? 

@ 修 复 了 什么 问题 ? 

@ 你 发 起 的 是 一 个 bug 修复 (bug fix) 还 是 创建 了 一 个 新 的 功能 ? 对 旧 的 版 本 是 
有 重大 影响 ”对 已 经 存在 的 函数 或 者 模块 是 否 进行 重 构 ? 

@ 是 如 何 验证 它 的 ? 

更 多 关于 PR 的 细节 可 参考 ; 
https:/github.com/embeddedartistry/templates/blob/master/oss_docs 人 PULL_REQUEST_TEMP 

LATE.md。 


| 


了 


旺 


9.3.2 准备 工作 2: 编写 行为 准则 


一 个 社区 想 要 可 持续 地 且 健 康 地 发 展 需要 拥有 一 份 约定 的 行为 准则 : 
CODE_OF_CONDUCT.md。 顾 名 思 义 ， 行 为 准则 即 是 参与 社区 时 的 一 些 礼仪 、 说 话 方式 、 行 


为 等 ， 它 帮助 社区 形成 一 种 友好 的 氛围 ， 且 在 某 种 程度 上 它 也 是 展示 项 目 对 于 贡献 者 的 友好 程 


当前 已 经 不 需要 我 们 自己 创建 行为 准则 ， 在 贡献 者 公约 (https:Wwww.contributor- 


covenant.org/) 之 中 已 经 提供 了 一 份 行 之 有 效 的 行为 规范 ， 已 经 被 用 在 包括 Kubernetes，Rails， 


以 及 Swift 等 超过 4000 个 开源 项 目 (https:Wwww.contributor-covenant.org/adopters) 之 中 。 参 考 图 


9.5 点 击 Add Code of conduct， 便 会 弹出 图 9.7 的 结果 ; 


xinetzone / cv-actions 四 Unmwatch 1 食 Sstar 1 区 Fork 0 
Pull requests 而 


Add a code of conduct to your project 


Contributor Covenant 
Recommended for proje 


和 se 过 et eeiEDi Code of Conduct 


Citizen Code Of Conduct 
Our Pledge Email address 


Our Standards 


Examples of behavior that contributes to creating a positive environment indude 


图 9.7 添加 行为 准则 
选择 贡献 者 公约 〈Contributor Covenant) 并 在 右 侧 填写 电子 邮箱 用 于 处 理 违反 公约 的 行为 


和 反馈 。 最 后 ， 提 交 修 改 即 可 。 


9.3.3 贡献 指南 编写 细则 


贡献 指南 的 方式 ， 可 以 查阅 @nayafia 的 贡献 指南 模板 或 者 @mozilla 的 “如 何 构建 
CONTRIBUTION.md”。 下 面 给 出 cv actions 的 贡献 指南 : 


考虑 到 项 目的 可 读 性 ， 需 要 设计 一 些 贡献 指南 编写 的 细则 。 如 果 您 想 要 获得 更 多 有 关 编 写 


# 贡献 指南 
非常 感谢 您 乐意 为 cv actions 提供 新 鲜血 液 。 正 是 更 多 像 您 这 样 的 人 ， 使 得 cv actions 将 逐渐 发 展 为 一 


个 强大 的 计算 机 视觉 社区 。 
为 了 创建 一 个 良好 的 社区 环境 ， 请 您 遵守 我 们 社区 的 《[ 行 为 准则 ](CODE_ OF CONDUCTmd)》。 如 果 您 
想 要 发 起 一 个 Bug report 或 者 Feature request， 请 您 遵循 lssue 的 模板 进行 贡献 。 同 时 也 欢迎 您 贡献 新 


的 且 实 用 的 lssue 与 Pull request templates。 


请 您 仔细 阅读 这 份 指 南 ， 因 为 ， 如 果 您 这 样 做 了 ， 既 可 以 节省 您 的 宝贵 时 间 ， 同 时 也 对 其 他 贡献 者 或 者 
审阅 者 们 的 极 大 的 尊重 。 


本 项 目的 芝 目 标 芝 是 基 打 造 一 个 健康 且 可 持续 发 展 的 计算 机 视觉 社区 。 共 
## 贡献 的 类 型 


本 项 目 不 仅 仅 欢迎 您 贡献 代码 ， 同 时 也 欢迎 您 贡献 文档 《请 在 /docs/ 中 进行 ) ， 教 程 或 者 本 项 目的 使 
用 手册 等 内 容 。 


## 贡献 的 必要 条 件 

1. 如 果 您 不 了 解 如 何 对 项 目 进 贡献 ， 请 您 参考 [如 何 为 开源 做 贡献 ](https.//opensource.guide/zh- 
cn/how-to-contribute/)。 

2. 为 了 方便 项 目的 管理 ， 请 您 使 用 Git Flow 进行 管理 。 当 您 将 项 目 克隆 到 您 的 本 地 电脑 后 ， 请 您 运行 : 
gitflow init 并 随 之 切换 到 develop。 具 体 是 使 用 细节 请 启 ] <https/xinetzone.github.io/projects/> 。 

3. 本 项 目 暂 定 以 Python 作为 代码 的 开发 语言 ， 而 文档 的 编写 请 使 用 Markdown 进行 工作 。 

4. 本 项 目 在 GitHub 上 维护 的 master 分 支 作为 预 发 布 版 本 ， 而 develop 分 支 作 为 开发 版 本 。 其 他 功能 版 
本 请 以 git flow 的 规则 进行 管理 。 

5. 您 贡献 的 Python 代码 需要 支持 pep8， 数 学 公式 最 好 使 用 markdown 的 标准 语法 ， 比 如 `$x^2=1$ 等 。 
## Issue 与 Pull request 的 行为 准则 

考虑 到 可 读 性 与 可 理解 性 ， 在 您 创建 Issue 或 者 Pull request 〈 简 写 为 PR) 时 ， 请 遵循 如 下 约定 : 

1. 六 请 给 出 您 的 issue 或 者 PR 的 context**: 即 给 出 上 下 文 语 境 。 比 如 当 您 你 运行 程序 时 遇 到 一 个 错误 ， 
请 解释 你 是 如 何 操作 的 ， 并 描述 该 错误 现象 是 否 具有 再 现 性 ; 当 您 提交 一 个 新 的 idea， 请 您 解释 该 idea 
您 是 如 何 想 到 的 ， 并 且说 明 您 的 idea 的 适用 范围 ， 是 否 可 以 将 您 的 idea 进行 推广 或 者 拓展 。 

2. 类 您 是 否 已 经 完成 准备 工作 坟 : 请 确认 您 是 否 阅读 了 项 目的 README、 文 档 、 问 题 〈 开 放 的 和 关闭 
的 ) ， 检 查 您 的 issue 或 者 PR 是 否 已 经 有 人 做 过 或 者 正在 做 ， 避 免 提 交 重 复 的 议题 或 者 请 求 。 

3. 请 您 坟 保 持 请 求 内 容 的 短小 而 直接 **: 每 个 人 的 时 间 和 精力 都 是 有 限 的 ， 短 小 而 直接 的 请 求 对 大 家 都 
有 益处 。 

4. 六 请 保持 您 的 优雅 六 : 本 社区 禁止 发 布 不 良 信息 ， 注 意 用 语文 明 而 优雅 ， 杜 绝 各 种 辱骂 和 打 口 水 仗 的 
行为 。 

## 获得 联系 

- 您 可 以 在 Gitter @[cv-actions](https:Wgitterim/cv-actionscommunity) 上 讨论 Issue 

- 如 果 有 疑问 ， 请 您 四] xinzone@outlook.com 

### TODOS9 

-[] 利用 [pre-commitl(httpsWpre-commitcomy/) 自动 部 署 代 码 的 格式 ， 使 其 自动 化 支持 pep8 等 格式 。 
至 此 ， 我 们 便 在 GitHub 上 完成 了 项 目的 构建 工作 。 


9.4 使 用 git submodule 管理 子 项 目 


参考 资料 : https:Wgit-scm.com/book/en/v2/Git-Tools-Submodules。 
情景 : 在 正在 维护 的 项 目 〈 可 记 为 A) 中 存在 一 些 子 项 目 或 者 第 三 方 库 〈 可 记 为 B) 。 你 


不 想 在 A 中 直接 维护 B， 和 希望 B 作为 一 个 单独 的 项 目 进行 管理 ， 这 种 情况 下 便 需 要 借助 Git 子 
模块 工具 了 。Git 子 模块 工具 将 B 作为 A 的 一 个 子 目 录 进 行 管理 ， 使 用 git submodule 来 实现 。 
下 面 以 一 个 例子 来 说 明 如 何 使 用 子 模块 的 。 


的 工具 


前 提 : 在 Github 上 单独 创建 一 个 独立 的 项 目 xinetzone/image， 该 项 目 是 一 个 数字 图 像 处 理 


[ 具 包 《细节 见 https:/xinetzone.github.io/image/) 。 


目标 : 在 cv-actions 项 目 中 添加 子 项 目 image。 
(1) 克隆 cv-actions 到 个 人 电脑 。 即 在 终端 输入 : 
git clone https://github.com/xinetzone/image.sit 
(2) git glow 初始 化 ， 即 在 终端 输入 如 下 命令 : 


$ cd cv-actions 
$gitflow init 
(3) 使 用 gitflow 创建 并 切换 到 新 的 分 支 feature/image， 即 在 命令 行 输入 : 

$git flow feature start image 

(4) 使 用 git submodule 添加 子 项 目 cv-actions 到 目录 app/ 之 下 ， 即 在 命令 行 输入 : 

$ cd app/ 

$git submodule add https:Wgithup.comy/xinetzoneVimadge 

其 中 https:Wgithub.comy/xinetzone/imasge 是 子 项 目 image 的 网 址 。 

以 看 到 此 时 在 app/ 下 新 增 目 录 image， 且 在 根 目 录 新 增 文 件 .gitmodules。 

其 中 .gitmodules 文件 记录 了 配置 文件 保存 的 项 目 image 的 URL 与 已 经 拉 取 的 本 地 目录 之 
间 的 映射 : 


submodule "appyVimage'"] 


台 


path = app/image 

url = https:Wgithub.comy/xinetzone/image 

如 果 有 多 个 子 模块 需要 被 管理 ，.gitmodules 文件 中 就 会 有 多 条 记录 。 虽 然 image/ 是 cv- 

actions 的 工作 目录 的 一 个 子 目 录 ， 但 是 ，git 并 不 会 将 其 视 作 普通 文件 进行 管理 ， 而 是 将 其 作 

为 一 个 整体 当 作 子 模块 中 的 某 个 具体 的 提交 进行 管理 。 
《3$) 提交 更 改 。 为 了 让 子 模块 image 加 入 到 git 的 历史 commit) 之 中 ， 您 需要 将 其 提交 : 
$cd ..# 回 到 根 目录 
$git commit -am 添加 子 模块 image 

其 中 -am 是 -a -m 的 组 合 。 

《6) 推送 项 目 到 远 端 分 支 feature/image。 

$ git push origin feature/image 


9.5 克隆 含有 子 模块 的 项 目 


克隆 含有 子 模块 的 项 目 一 般 有 两 种 方法 : 
方法 1 git clone URL 


方法 2: 8git clone --recursive URL 

下 面 先 讨论 如 何 使 用 方法 1 死 隆 含 有 子 模块 的 项 目 ， 首 先 使 用 语法 git clone -b 分 支 名 
URL 克隆 项 目的 指定 分 文 。 在 终端 运行 : 

$git clone -b feature/image https:Wgithub.com/xinetzone/cvy-actions 


$ cd cv-actions/ 

此 时 ， 进 入 app/imasge 会 发 现 其 是 一 个 空 目 录 ， 这 是 因为 含有 子 模块 的 项 目 需要 进行 初始 
化 。 初 始 化 需要 两 步 ， 具 体操 作 是 在 app/imasge 下 面 运 行 : 

$git submodule init 


$gitsubpmodule update 
其 中 git submodule init 用 于 初始 化 本 地 配置 ， 而 git submodule update 用 于 从 项 目 image 中 
抓 取 所 有 数据 并 检 出 〈checked out) 父 项 目 中 列 出 的 合适 的 提交 。 

对 于 方法 2， 仅 仅 运 行 如 下 命令 即 可 达到 上 述 的 同样 效果 : 


$git clone --recursive -b feature/image https:Wgithub.coryxinetzone/cv-actions 


9.6 使 用 子 借 芮 


如 果子 模块 的 上 游 有 的 新 的 提交 (commit) ， 想 要 获取 更 新 ， 有 两 种 方法 ; 


本 地 代码 。 


直接 进入 子 模块 所 在 目录 app/image 通过 运行 git fetch 与 git merge， 合 j 


直接 运行 git submodule update --remote image 获取 上 游 分 文 来 更 新 本 地 代码 。 


9.7 本 章 小 续 


本 文 主 要 讨论 了 如 何 利 用 Git 与 Github 允 


但 是 它 同样 适用 于 其 他 领域 的 项 目的 创建 。 


第 10 章 从 零 开始 设 


本 章 导 航 : 


1 建 属于 自己 的 计 售 
何 利用 git submodule 在 大 项 目 中 管理 小 项 目 。 虽 然 ， 本 项 目 介 绍 的 计算 机 视觉 项 目的 创建 ， 


@ 说明 如 何 使 用 GitHub 创建 一 个 项 目 。 


@ 使 用 Python 如 何 创 建 一 个 bbox 处 理 的 工具 。 


@ 介绍 SymPy 做 符号 运算 。 


计 计 算 机 视 


10.1 创建 一 个 项 目 


@ 了 解 Git 与 vscode。 
@ 熟悉 Python。 
@ Shell〈 命 令 行 命令 ) 基本 命令 ， 本 : 


在 介绍 本 章 主题 之 前 ， 需 要 了 解 本 章 需 要 的 背景 知识 : 


所 均 以 $ 3 


于 头 月 


月 于 标识 。 


@ 本 章 的 代码 内 容 均 是 在 Jupyter Notebook 环境 下 运行 的 。 


本 章 尽 可 能 地 从 零 基 础 说 明 如 何在 https:Wgithub.com 创建 一 个 项 目 


发 。 创 建 项 目的 步骤 很 简单 : 


(1) 进入 自己 的 GitHub 主页 ， 比 如 : https:/github.comy/xinetzone， 如 


页 面 右 上 角 的 十， 选择 New repository。 


机 视觉 项 目 


总 软件 


上 游 分 支 来 更 新 


， 同 时 也 介绍 了 如 


， 并 在 本 地 进行 项 目 开 
图 10.1 所 示 ， 点 击 


从 殉 巡 重复 开办 子 | py 从 Python GUI 六 旺 [fun 从 过 Prthor 所 二 间 个 本 从 Pythor 村 形 界 要 开发 ”从 thor 双 把 GUi 办 要 3 女 Python GUNttd -从 pyqt5+openc/ 实 珊 秽 


10.1 选择 New repository 


填写 必需 项 目 信 息 ， 如 图 10.2 所 示 。 


表单 上 的 Initialize this repository with a README 需要 ，gitignore 选择 在 项 目 中 需要 人 
比如 ，Python，1license 选择 一 个 需要 的 即 可 。 
如 果 想 要 将 此 项 目 打造 为 一 个 社区 ， 可 以 参考 我 的 博客 : 构建 ) 


口 ; 五 兰 


用 的 编程 


Create a new repository 


Arepository contains all project files, including the revision history, Already have a project repository elsewhere? 


Import a repository. 


Repository template 

Start your repository With as template repository's comtents 
No template ~ 

Owner Repository name * 


as 人 


Great repository names are short and memorable. Need inspiration? How about bookish-octo-funicular? 


Description (optional 


@ 让] Public 


再- Anyone can see this repositoqy. You choose who can commit 
O 台 Private 
You choose who can see and commit to this reposiomy 


Skip this step if youre importing an existing repository. 


Initialize this repository with a README 


This willlet you immediately clone the repository to your computer 


Add gfignors- None Add acense- Nonev 四 


Grant your Marketplace apps access to this repository 


You are subsaibed to 2 Markesplace apps 


齐 。GitHub Learning Lab 


Your interactive guide to leaming the skils you need without leaving GitHub 


todo 


Create new issues from actionable comments in your code 


10.2 填写 必需 项 目 信息 


' 香 


嚼 于 自己 的 项 目 


https://xinetzone.github.io/zh-CN/e6d6f9e7.html。 至 此 ， 完 成 了 项 目的 创建 工作 。 


在 日 


建 一 个 终端 《快捷 键 Ctrl+shiftt  ) ， 并 使 用 git clone URL 克隆 您 的 项 目 


Le 


10.2 项 目的 准备 工作 


归 如 


脑 磁 盘 上 创建 一 个 名 为 projects 的 文件 严 ， 然 后 使 用 vscode 打开 该 文件 夹 。 接 着 ， 创 


图 10.3 所 示 。 


xinet 人 MET MINGM464 /dy/githuby/projects 
$ Bit clone https://github.com/xinetzonejimage.git 


图 10.3 克隆 项 目 到 本 地 
过 网 站 https:Wimg.shields.io 为 您 的 项 目 添 加 图 


证 


转 到 项 目 目录 ， 编 辑 README.md 文件 
标 信 息 . 玫 比如 : 


大 数字 图 像 处 理 

[LGitHub 
issues](https:Wimg.shields.io/githuby/issues/xinetzone/image)](https:Wgithub.com/xinetzone/imageyissue 
S) [LGitHub 
forks](https:Wimg.shields.io/github/forks/xinetzone/image)](https:W/github.com/xinetzone/image/network) 
[LGitHub 
stars](https:Wimg.shields.io/githuby/stars/xinetzone/image)](https:/github.com/xinetzone/image/stargaz 
ers) [LGitHub 


license](https:Vimg.shields.io/githuby/license/xinetzone/image)](https:Vgithub.com/xinetzone/imagey/blob 
/masterLICENSE) ![GitHub repo size](https:Vimg.shields.io/githuby/repo-size/xinetzone/image) 


显示 的 效果 如 图 10.4 所 示 。 


Digital Image Processing https://xinetzone.github.io/imagey/ Edit 
Managetopics 
加 4 commits P 1branch 团 0 packages So releases 克 1environment 盟 1contributor 水 Apache-2.0 
Branch; master ~ ”New pull request Create newfile 。 Upload files ”Findfile 攻 a 


xinetzone initial app Latest commit 759e7de 9 days ago 


田 app iniial appP 9 days ag 
国 .gitignore initial app days ag 
国 LICENSE Initial commtt 9 days ag 
国 README.md Update READMEmd days ag 
国 -config.yml Set theme jekyll-theme-cayman ja 3 


README.md 


数字 图 像 处 理 
字 图 


图 10.4 创建 图 标 


下 面 就 以 我 自己 的 项 目 image (在 GitHub 中 搜索 Xinetzone/image 即 可 ) 为 例 展示 如 
何 开发 项 目 。 


10.3 开发 一 个 小 工具 : bbox 


站 


对 于 目标 检测 任务 ， 总 是 会 涉及 到 对 边界 框 〈Bounding Box， 简 称 bbox) 的 处 理 ， 因 而 ， 
开发 一 个 专门 处 理 边界 框 的 API 是 十 分 有 必要 的 。 在 创建 小 工具 bbox 之 前 ， 我 们 需要 了 解 一 
些 Python 的 基础 知识 并 创建 一 个 数学 的 向 量 实例 。 


10.3.1 创建 数学 中 的 “ 疝 量 ” 


Python 中 存在 一 个 十 分 强大 的 标准 库 : dataclass 。dataclass 的 定义 位 于 PEP-5$7， 一 个 
dataclass 是 指 “ 一 个 带 有 默认 值 的 可 变 的 namedtuple”， 广 义 的 定义 就 是 有 一 个 类 ， 它 的 属性 
均 可 公开 访问 ， 可 以 带 有 默认 值 并 能 被 修改 ， 而 且 类 中 含有 与 这 些 属 性 相关 的 类 方法 ， 那 么 这 
个 类 就 可 以 称 为 dataclass， 再 通俗 点 讲 ，dataclass 就 是 一 个 含有 数据 及 操作 数据 方法 的 容器 。 
关于 dataclass 的 更 多 精彩 内 容 可 参阅 Python 官方 网 站 搜索 dataclasses 与 typing 〈 详 细 的 介 
绍 可 参考 搜索 我 的 博文 ; “xinetzone + Python 3 之 类 型 注解 ”) 。 

为 了 更 好 的 说 明 dataclass 的 魅力 。 先 从 “ 整 点 ”开始 的 定义 开始 。 即 定义 点 A 为 A= 
X XEZ。 先 看 看 typing 的 方法 如 何 定 义 ? 

from typing import Any 
class Point: 
def _init_ (self name: str, x: int) -> Any: 
self.x = Xx # 坐标 值 
selfname = name # 名 称 
def _repr _ (self) -> Any: 
print("name={selfname}, x={self.X}”) 
再 看 看 dataclass 如 何 定 义 ? 
from dataclasses import dataclass 
@dataclass 
class Point: 
name: str 
Xi: int 
在 数学 中 一 般 使 用 向 量 来 表示 点 。 即 设 xi e Rn 0 <i< n， 则 可 以 使 用 A = (Cxa xn) 代 
表 点 A。 这 里 的 n 被 称 为 点 或 者 向 量 的 纬度 ， 我 们 使 用 Python 实现 向 量 的 构建 工作 。 

from typing import Sedquence 

from dataclasses import dataclass 

import numpy as np 

@dataclass 

class Vector: 


name: str 
# 夭 量 的 分 量 
components: Sequence[floai 
@property 
def toArray(self): 
return np.asanyarray(self.components) 


def _ len (self): 


向 量 的 维度 
return len(self.components) 
def add _ (self other): 
向 量 加 法 运算 
assert len(self) == len(othen, "向 量 的 维度 不 相同 " 
out = Self.toArray + other.toArray 
return out 
def sub (self, othen): 


assert len(self) == len(othen, "向 量 的 维度 不 相同 " 
out = SelftoArray - othertoArray 
return out 
def scale(self, scalar): 
向 量 的 数 乘 运算 
return scalar * self.toArray 
def _mul_ (self, othen): 


向 量 的 内 积 运算 
assert len(self) == len(othen, "向 量 的 维度 不 相同 " 
return np.dot(selftoArray, other.toArray.T) 
@property 
def norm(self): 
计算 模 长 
#S=Sum(component 2 for component in self.components) 
mod = Self ” self 
return np.sqrt(mod) 
def _getitem__(self index): 


向 量 的 索引 与 切片 
return self.components[index] 
将 该 代码 保存 到 /app/vector.py 文件 之 中 。 下 面 看 一 个 实例 : 
a= Vector('a, range(2,7)) 
al = Vector(a1l , range(5,10)) 
a2 = Vector(a2 , range(7,12)) 
a+al,a-al,a.scalar(4), anorm 


创建 了 3 个 向 量 a ataz， 接 着 ， 分 别 计 算 其 运算 : 向 量 加 法 ， 减 法 ， 数 乘 以 及 模 。 输 吕 


上 上 


二 EL 
结果 : 


(array([ 7，9, 11, 13, 15])， 
array([-3, -3, -3, -3, -3])， 
array([ 8, 12, 16, 20, 24])， 
9.486832980505138) 


10.3.2 编写 box.py 代码 


Vector 定义 了 “点 ”， 下 面 需要 定义 : 有 向 线段 [xi x?] = x2 一 Xi 。 使 用 Python 定义 很 简 
单 : 

Xx1 = Vector(x1, [1, 2]) 

X2 = Vector(Xx2 , [3, 4]) 

LS = Vector(x2 - x1, x2 - x1) # 线 段 x2 - x1 

则 点 xz 与 2 之 间 的 线段 ， 可 以 使 用 2 +tfxxz] 0<t<1L 进 行 表 示 。 这 样 一 来 ， 以 x， 
与 xi 连接 的 线段 为 对 角 线 的 珑 形 框 便 由 xz 与 xi 唯一 确定 。 

由 于 大 多 数 情 况 ， 和 抱 形 框 是 二 维 乎 面 图 形 ， 所 以 ， 接 下 来 仅仅 考虑 二 维 向 量 生成 的 和 矩 形 框 。 
使 用 Python 可 以 这 样 定义 : 


from dataclasses import dataclass 
from typing import Sequence 
import numpy as np 

from vector import Vector 
@dataclass 

class Rectangle: 


box: Sequence[Vectorn] 
def _post init _ (self): 

self.w, self.h = np.abs(self.box[1] - self.box[0]) 
def _ 1 _ (self, size): 


判断 矩形 的 尺寸 是 否 是 小 于 size 


w_cond = self.w < size # 宽 是 否 小 于 size 
h_cond = self.h < size # 高 是 否 小 于 size 
cond = w_cond or h_cond # 宽 或 者 高 是 否 均 小 于 size 
return cond 
def _ ge __(self, size): 
min_size = self < Size 
return not min_Ssize 
@property 
def areal(self): 


计算 矩形 面积 


return self.w* self.h 


该 代码 保存 在 /app/image/box.py 之 中 。Rectangle 完成 了 和 抑 形 边界 框 的 基础 构建 工作 。 同 


时 提供 了 宽 、 高 、 面 积 计 算 以 及 判断 是 否 为 最 小 边界 框 的 实现 。 
我 们 依然 看 一 个 例子 ; 


设 存 在 一 个 抢 形 框 a = (xu yuxz,yz)， 其 中 ，(Gxuya)，(Gxz2yz) 分 别 表 示 和 形 框 的 天 上 角 、 
右 下 角 坐 标 。 这 样 ， 利 用 Rectangle 便 可 定义 此 和 矩形 框 : 
al = Vector(a_1', [2, 3]) 
a2 = Vector(a_1, [7, 13]) 
bbox = Rectangle([a1, a2]) 
接着 ， 可 以 计算 bbox 的 面积 、 高 、 以 及 宽 ; 
bbox.area, bbox.h, bbox.w 
输出 结果 是 : 
(66, 10, 5) 
至 此 ， 一 个 简单 的 边界 框 模型 搭建 完成 了 。 
可 以 说 数学 是 计算 机 视觉 的 核心 ， 我 们 需要 使 用 数学 理论 分 析 大 量 的 视觉 数据 。 学 习 计算 
机 视觉 相关 知识 ， 总 是 绕 不 开 数 学 的 。 


10.4 Python 中 的 数学 : 符号 计算 


Python 有 许多 优秀 的 处 理 数学 的 工具 ， 本 章 仅仅 介绍 符号 计算 库 : SymPy。 


10.4.1 使 用 SymPy 表示 数 


Sympy 库 完全 由 Python 写成 ， 支 持 符号 计算 、 高 精度 计算 、 模 式 匹 配 、 绘 图 、 解 方程 、 
微 积分 、 组 合 数学 、 离 艇 数学 、 几 何 学、 概率 与 统计 、 物 理学 等 方面 的 功能 。 
我 们 来 简单 回顾 一 下 数学 中 的 “ 数 ”: 


站 


区 分 雪 
无 豫 数 
虚数 一 般 使 用 a + bi 的 形式 进行 表示 。 其 中 ab e 了， 而 ji 是 虚数 的 单位 。 在 SymPy 中 针 
对 这 些 特定 的 “ 数 "， 有 专门 的 符号 表示 。 
使 用 I 表 示 i， 使 用 Rational 表示 分 数 。 
from sympy import 1, Rational, sqrt, pi，E, oo 
3+4l, Rational(1, 3), sqrt(8), sqrt(-1), pi，E**2, 00 


输出 的 结果 是 : 


1 
3 十 包子,2V2 尼 玫 e2 oo 


可 以 看 出 ，SymPy 可 以 完美 的 表示 我 们 熟悉 的 各 种 数学 中 定义 的 “ 数 ”。 


4 Ab 


10.4.2 使 用 SymPy 提升 您 的 数学 计算 能 


为 什么 要 使 用 SymPy 呢 ? 直接 使 用 Python 的 math 库 不 就 可 以 了 吗 ? 您 也 许 会 有 诸如 此 类 
的 疑问 。 在 解释 原因 之 前 ， 我 们 来 看 一 个 例子 : 


import math 

math.sqrt(8) 

输出 的 结果 是 ; 

2.8284271247461903 

2.8284271247461903? 您 没有 看 出 ， 由 于 计算 机 是 以 二 进 制 方式 进行 数学 运算 的 ， 故 而 计 
算 虚 数 的 值 总 是 不 精确 的 ， 而 SymPy 的 计算 结果 便 是 精确 的 。 

import math, sympy 

math.sqrt(8) 和 2, sympy.sqrt(8) 2 

输出 结果 是 : 

(8.000000000000002, 8) 

1. 对 数学 表达 式 进 行 简 化 与 展开 
在 SymPy 中 使 用 symbols 定义 数学 中 一 个 名 词 : 变量 。 使 用 symbols 创建 多 个 变量 名 时 ， 
请 使 用 空格 或 者 逗号 进行 隔 开 ， 即 symbols(x y") 或 者 symbols(x,y) 的 形式 。 

from sympy import symbols 

Xx, yY= Symbols(xy) 

expr=X+2y 

expr 

输出 结果 : 

X+2y 

这 样 ， 我 们 便 可 以 将 expr 当 作 数学 中 的 表达 式 了 : 

expr + 1, expr - X 

输出 结果 : 

X+2y+1,2y 

既然 谈 到 数学 表达 式 ， 总 会 涉及 的 其 的 展开 与 化 简 。 比 如 xCx+ 2y) =X2 + 2xy， 可 以 这 


from sympy import expand, factor 
expanded_expr = expand(xx*expn 
expanded_expr 

输出 结果 是 

X2 十 2xy 
我 们 还 可 以 将 其 展开 式 转换 为 因子 的 乘积 的 
factor(expanded_expn 

输出 的 结果 是 : 

X(X 十 27) 
SymPy 不 仅仅 如 此 ， 它 还 可 以 支持 LATEX 公式 : 
alpha, beta, nu = Symbols(alpha beta nu) 

alpha, beta, nu 

输出 结果 是 : 
Q, DBV 
需要 注意 的 是 symbols 定义 的 变量 x, y 等 不 再 是 字符 
2. 求 导 ， 微 分 ， 定 积分 ， 不 定 积 分 ， 极 限 

先 载 入 一 些 会 用 到 的 函数 ， 方 法 ， 符 号 ; 

from sympy import symbols, sin, cos, exp, 00 

from sympy import expand, factor, diff, integrate, limit 

Xx, y,t=Symbols(xyt 


式 : 


NY 


看 作 是 数学 中 的 变量 即 可 。 


宇 
陋 
谤 
ee 
蕉 

L 


在 SymPy 中 使 用 diff 对 数学 表达 式 求 导 ， 比 如 : (sin(z)e5' = exsin(x) + excos(x)， 使 用 
SymPy， 则 有 : 
diff(sin(X) “exp(Xx), X) 
输出 结果 是 : 
exsin(X) 十 excos(O) 
在 SymPy 中 使 用 integrate 求解 不 定 积分 与 定 积分 。 比 如 ， exsin(x) + excos(mdx = 
sin(xz)ex， 即 : 
integrate(exp(Xx)*sin(Xx) + exp(x) "cos(X), X) 


输出 结果 : 
Sin(X)e< 

定 积分 厂 。sin (x?)dx = 痉 
Fe ““2),，(X, -00， 3 
输出 结果 : 
V2Vr 

2 
在 SymPy 中 使 用 limit 求 极 限 ， 比 如 lim ,o 一 
limit(sin(X)/Xx, x, 0) 
输出 结果 : 
1 
3. 解 方程 
from sympy import solve, dsolve, Eq, Function 
可 以 使 用 SymPy 的 solve 求解 ftx) = 0 这 种 类 型 的 方程 。 比 如 ， 求 解 x2 一 2 = 0: 
Solve(X**2 - 2, X) 
输出 结果 是 : 
[-V2V3] 
还 可 以 使 用 SymPy 的 dsolve 函数 求解 微分 方程 : 
y=Function(y) 
dsolve(Eq(yttb.difftt, t) - yltt),， expltt), ybD) 
输出 只 一 y= et 的 结果 : 
[RE 习 et 
小 贴 十: 可 以 使 用 sympy.latex 将 您 的 运算 结果 使 用 LATEX 的 形式 打印 出 来 : 
from sympy import latex 
latex(lntegral(cos(X)” 2, (Xx, 0, pi))) 


户 
YI 
术 二 


输出 结果 : 
Nintlimits {OJAfWPi COSA2JNIeft(X YighbJN exX 


10.4.3 使 用 SymPy 求 值 


在 10.4.2 中 我 们 已 经 介绍 了 SymPy 的 大 多 数 符号 运算 机 制 ， 接 下 来 将 讨论 如 何 通过 “赋值 ” 
《数学 中 的 变量 赋值 ) 来 获取 表达 式 的 值 。 如 果 您 想 要 为 表达 式 求 值 ， 可 以 使 用 subs 函数 
(CSubstitution， 即 置换 ) : 

X= Symbols(x) 

expr=X+1 

expr.Subs(x, 2) 


配 


出 的 结果 为 : 


正 是 我 们 想 要 得 到 的 预期 结果 。 
在 10.4.2 中 出 现 的 符号 Eq 是 用 来 表示 两 个 数学 表达 式 的 相等 关系 。 比 如 ，x 二 1=4， 可 
以 这 样 ， 
Eq(x+T, 四 
输出 结果 : 
X 二 企 三 示 

又 比如 ，G+1D2 = x2 十 2x 二 1， 可 以 这 样 

Eq((Xx+ 1T) 关 2, xxx2 + 2xX 二 寻 ) 

输出 结果 : 

(十 1) =X2 十 2X 十 1 

如 果 想 要 判断 两 个 数学 表达 式 是 否 相 等 ， 有 两 种 方式 。 下 面 我 们 来 判断 cos?(o) 一 
sin2(x) = cos(2x) 

方式 一 : 使 用 equals。 

a = cos(X) ”2 - Sin(X) 2 

b = cos(2"X) 


a.equals(b) 

输出 结果 为 True 符合 预期 。 
方式 二 : 使 用 Simplify 化 简 等 式 : 
Simplify(a - b) 

输出 结果 为 0 也 符合 预期 。 


10.4.4 使 用 SymPy 做 向 量 运 算 


在 SymPy 中 分 别 使 用 Point，Segment 来 表示 数学 中 的 点 与 线段 实体 (entity) 。 

from sympy import Segment, Point 

from sympy.abc import X 

a = Point(1, 2, 3) 

b = Point([2, 3]) 

C= Point(0, X) 

ab, C 

输出 结果 是 : 

(Point3D(1, 2, 3), Point2D(2, 3), Point2D(0, x)) 

即 Point 用 来 表示 数学 中 的 点 《向量 ) : X = (xi xn) E 了 nn， 其 中 ER,1<j<n。 对 
于 Segment(xlx2) 中 的 参数 x1，x2 可 以 是 Point 实例 ， 也 可 以 是 元 组 或 者 列表 ，array 等 。 但 是 
xl 与 x2 代表 的 点 的 维度 必须 一 样 。Segment(xlx2) 表 示 一 个 有 向 的 线段 ， 即 抢 形 的 对 角 线 方 
向 为 xz 一 xi1。 比 如， 定义 下 图 10.5 的 实体 : 

xl = Point(1,1) 

x2 = Point(2,2) 

S=Segment(Xx1,x2) 


Segment 


图 10.5 Segment 示意 图 


图 中 的 有 辐 对 角 线 《向 量 ) 可 以 通过 s.direction 进行 计算 : 

s.direction 

输出 结果 为 一 个 向 量 : 

Point2D(11) 

即 向 量 xz - Xi。 在 许多 领域 中 ， 一 般 将 水 平 向 右 作 为 X 轴 ， 水 平 向 下 作为 Y 轴 。 左 上 角 


作为 原点 (0,0)。 
有 了 对 角 线 的 方向 ， 便 可 以 计算 矩形 框 的 宽 与 高 : 
w, h =s.direction 
由 于 Point 指 代 数学 中 的 向 量 ， 故 而 其 存在 加 法 、 减 法 、 数 乘 及 内 积 运算 ， 它 们 均 被 重 载 
为 Python 的 运算 符 。 比 如 ， 我 们 定义 向 量 abc， 且 a+b=c， 可 有 : 
a= Point(0,1) 
b = Point(1,0) 
C=Point(1,1) 
下 面 对 它 们 进行 加 法 运算 : 
ab C 
输出 结果 为 True 符合 预期 。 同 样 有 : 
a-b,c "2,a.dot(c) 
输出 结果 为 : 
(Point2D(-1, 1), Point2D(2, 2), 1) 
所 有 结果 均 符 合 预期 。 下 面 再 来 看 看 Segment: 
ab = Segment(a, b) 
ac = Segment(a, c) 
ab.direction, ac.direction 
输出 的 结果 是 : 
(Point2D(1, -1), Point2D(1, 0)) 
我 们 可 以 计算 ab 与 ac 的 方向 向 量 的 夹 角 余 弦 : 
ab.direction.dot(ac.direction) / (ab.length” ac.length) 
答 出 结果 为 半 ， 即 cos(9) = -a_ 。 很 容易 求 得 9 = 开 。 更 方便 的 是 ，Segment 提供 了 函数 


1allbl 
直接 计算 夹 角 : 
ab.angle_between(ac) 
和 输出 结果 也 是 =。 是 不 是 很 方便 ? 如 果 您 想 要 获取 Segment 实例 的 全 部 点 可 以 调用 


ab.points， 分 别 调 取 各 点 则 可 以 使 用 ab.pl 与 ab.p2。 


10.5 案例 : 实现 图 像 局 部 resize 保持 高 宽 比 不 变 


下 面 利 用 9.4 节 学 习 的 东西 构造 一 个 实现 图 像 局 部 resize 保持 高 宽 比 不 变 的 模型 。 

题 设 : 假设 有 一 张 图 片 I 的 尺寸 为 (W, HD)，I 存 在 一 个 目标 物 0，0 的 尺寸 为 (W,H)。 

目标 : 将 0 resize 为 尺寸 是 (wh) ， 而 约束 条 件 是 保证 resize 之 后 的 边界 为 wmham 〈 注 意 : 
这 里 的 ha 表示 下 边界 长 度 ) 。 需 要 尽 可 能 保持 resize 之 后 的 图 片 块 宽 高 比 不 变 ， 即 满足 公式 
10.1: 


册 WwW 一 2wn 
2 
(公式 10.1) 


中 hp 指 的 是 上 边界 的 长 度 。 这 里 只 有 hu 的 未 知 量 ， 我 们 可 以 直接 求 出 ; 


工 二 


TV/ 一 2wW 
一 一 (公式 10.2) 


需要 在 原 图 补 边 Ha Wan, H 对 应 于 hm wm,hb 。 下 面 给 出 它们 


一 天 一 7n 


为 了 保证 resize 的 一 致 性 
的 计算 公式 ; 


W Wr 十 2W 
一 = 一 (公式 10.3 
二 


同时 还 需要 保证 resize 前 后 的 宽 高 与 边界 的 比例 不 变 ; 
TY W 
友 八 
人 (公式 10.4) 
玖 及 
二 八 
丙 (公式 10.5) 


联合 上 述 公式 ， 便 可 以 求 出 所 有 未 知 量 。 至 此 ， 模 型 建立 完毕 。 下 面 考虑 使 用 Python 实 
现 。 


from sympy import Point, Segment, symbols, Eq, solve 
from dataclasses import dataclass 
@dataclass 
class Resize: 
Wi:int 
Hi: int 
wiint 
h:int 
w_mi:int 
h_mi:int 
def model(self): 
Hm, W_m,H_p,h_p=symbolsCoH mW _m,H_p, hp) 
eq1 = Eq(self.W/self.H, (self:w- 2 "self.w_m)/self.h - self.h_m -Ph_p)) 
eq2 = Eq(self.w/self.h, (self:W +2”W_m)(selfH+Hm+H p)) 
edq3 = Eq(self.WAMN_m, self.wself.w_m) 


eq4 = Eq(self.HMH_m, self.h/self.h_m) 
R = solve([eq1, eq2, eq3, eq4], [H_m, W_m, H_p, h_p]) 
return R 
# 传 入 已 知 量 
W, H = 100, 100 
w, h = 32, 32 
w_m,h_m=5,5 
# 模型 建立 
r= Resize(W, H, wh w_m, h_m) 
# 模型 求解 
R=rmodel() 
# 查看 求解 结果 
R 
输出 结果 为 : 
{H_m: 15.6250000000000， 
W_m: 15.6250000000000， 
H_p: 15.6250000000000， 
h_p: 5.00000000000000} 
这 样 我 们 完成 了 设 定 的 目标 。 为 了 更 直观 ， 从 网 上 找 一 张 蛇 豆 的 图 片 作为 例子 。 为 了 可 视 
化 的 方便 ， 我 们 需要 定义 一 个 画 边 界 框 的 函数 : 
def bbox to _rect(bbox, colon): 
# 将 边 寞 框 (左上 x, 左上 y, 右 下 x, 右 下 y) 格 式 转换 成 matplotlib 格式 : 
# (( 左 上 x, 左上 y), 宽 , 高 ) 
return plt.Rectangle( 
xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1]， 
fi=False, edgecolor=colonr linewidth=1) 
该 函数 的 参数 bbox 取 值 为 Co jy， xx yz)，color 指定 框 的 颜色 。 
from matplotlib import pyplot as plt 
%matplotlib inline 
# 读 取 图 片 
img = pltimread(" 蛇 豆 .jpg") 
bbox = [75, 21, 160, 206]# 框 的 坐标 
fig = pltimshow(img) 
fig.axes.add_ patch(bbox to_rect(bbox, red)) 
plt.show() 
输出 结果 ， 如 图 10.6 所 示 。 


图 10.6 一 张 蛇 豆 的 图 片 
数组 img 指 代 TI， 而 图 中 的 “ 蛇 豆 ”《〔 即 0) 我 们 可 以 使 用 切片 的 方式 获取 ， 即 


img[bbox[1]:bbox[3]+1,bbox[0]:bbox[2]+1] 〈 这 里 需要 注意 ， 切 片 的 第 一 维度 为 高 ) ， 即 : 


patch = img[bbox[1]:bbox[3]+1,bbox[0]:bbox[2]+1] 
plt.imshow(patch) 

plt.show() 

输出 结果 ， 如 图 10.7 所 示 。 


图 10.7 蛇 豆 的 切片 ， 简 称 蛇 豆 片 ， 即 图 像 块 


可 以 直接 求 得 蛇 豆 片 的 宽 和 高 : h, w = patch.shape[:2]， 但 是 ，patch 是 由 bbox 获取 的 ， 故 
我 们 也 可 以 直接 求 得 ; 
def get_aspect(bbox): 


计算 bbox 的 宽 和 高 
# 加 1 是 因为 像素 点 是 的 尺寸 为 1X1 
w = bbox[2] - bbox[0] + 1 
h = bbox[3] - bbox[1] + 1 
return w, h 
# 获取 宽 高 
W, H = get_aspect(bbox) 
我 们 想 要 将 蛇 豆 片 resize 为 (124, 270)， 则 可 以 设 定 : 
w, h = 124, 270 
wm,h_m=5,5 
接着 ， 计 算 边 界 : 
r= Resize(W, H, wh w_m, h_m) 
R=rmodel() 
H_m,W_m,H_p,hp=Rvalues() 
昌 于 这 里 获取 的 值 是 浮 点 数 ， 我 们 需要 将 其 转换 为 整数 : 
def float2int( "args): 
return [int(arg)+1 for arg in args] 
# 获取 整数 型 数据 


人 同 


H_m,W_m,H_p,hp=float2int(R.values()) 

最 后 ， 原 图 与 resize 之 后 的 图 片 展示 如 下 : 

import cv2 

patch = img[bbox[1]-H_p:bbox[3]+1+H_m,bbox[0]-W_m:bbox[2]+1+W_m] 
resize = cv2.resize(patch, (w, 站 ) 

plt.imshow(patch) 

plt:title("origin7) 

plt.show() 

plt.imshow(resize) 

plt:title("resize") 

plt.show() 

输出 结果 见 图 10.8 所 示 ， 我 们 可 以 看 出 resize 的 效果 十 分 不 错 。 
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图 10.8 resize 前 后 对 比 图 
本 小 结 主要 介绍 如 何 利用 SymPy 实现 一 个 resize 保持 宽 高 比 不 变 的 模型 。 在 模型 的 建立 
过 程 中 ， 我 们 发 现 SymPy 为 我 们 提供 了 十 分 便利 的 公式 推理 工具 ， 因 而 ， 好 好 的 利用 SymPy 
您 一 定 会 创建 一 个 十 分 强大 的 属于 自己 的 工具 包 。 


10.6 本 章 小 结 


本 章 主要 介绍 介绍 如 何 从 零 开 始 设计 计算 机 视觉 软件 。 首 先 介 绍 了 创建 项 目的 一 般 步 骤 ， 
之 后 简 述 SymPy 的 基础 知识 点 ， 最 后 ， 以 SymPy 为 基础 创建 了 一 个 模型 ， 该 模型 可 以 实现 将 
图 片 resize 之 后 保持 宽 高 比 〈aspectrate) 不 变 的 特性 。 

本 章 的 代码 逻辑 并 不 是 很 严 说， 主要 是 提供 如 何 一 个 创建 计算 机 视觉 软件 的 思路 ， 仔 细 研 
究 本 章 的 软件 设计 思路 将 会 收获 很 多 的 。 


第 四 篇 案例 篇 


第 11 章 Kaggle 实战 : 独 狗 分 类 (Gluon 版 ) 


本 章 利用 Kaggle 上 的 数据 集 : https:Wwww.kaggle.comy/c/dogs-vs-cats/data 来 学 习 卷 积 神经 


网 络 。 利 用 了 第 7 章 的 模块 : ImageZ 等 。 它 们 被 封装 进 了 一 个 名 字 叫 zipimage.py 的 文件 中 。 
接 下 的 几 章 也 会 利用 该 模块 。 


本 章 快 报 ; 
@ 自 定义 数据 处 理 API。 

@ 利用 MXNet 来 创建 和 训练 模型 。 
@ 利用 迁移 学 习 进 一 步 提 升 模型 的 泛 化 性 。 

卷 积 神经 网 络 是 什么 ? 它 到 底 有 什么 神奇 之 处 ， 使 得 其 超越 传统 的 机 器 学 习 方 法 ? 下 面 让 


我 们 一 步 一 步 地 揭 开 它 的 神秘 面纱 ! 


道 : 
《1 = dog,0 = cat) 。 为 了 方便 ， 将 数据 下 载 到 本 地 ， 然 后 做 如 下 操作 。 代 码 如 下 所 示 : 


11.1 数据 处 理 


一 般 地 ， 数 据 是 一 个 模型 的 灵 魂 ， 为 了 让 模型 变 得 更 加 好 ， 下 面 需要 先 花 点 时 间 处 理 数据 。 
先 载 入 一 些 必 备 的 包 ， 代 码 如 下 所 示 : 

import zipfile # 处 理 压 缩 文 件 

import os 

import pandas as pd # 处 理 csv 文件 

import numpy as np 

from matplotlib import pyplot as plt 

打 ----- 自 定 义 模块 

from utils.zipimage import ImageZ 

%matplotlib inline # 使 得 Notebook 可 以 显示 图 片 

查看 https:Wwww.kaggle.com/c/dogs-vs-cats/data 来 了 解数 据 的 基本 信息 。 从 该 网 页 可 以 知 
训练 数据 tain.zip 包括 50 000 个 样本 ， 其 中 猫 和 狗 各 半 。 而 其 任务 是 预测 testl.zip 的 标签 


def unzip(root NAME):# 函数 unzip 被 封装 到 了 kaggle/helper.py 
Source_path = os.path.join(root，'all.zip) 
dataDir = os.path.join(root NAME) 
with zipfile.ZipFile(Source_path) as fp: 

fp.extractall(dataDin # 解压 all.zip 数据 集 到 dataDir 

os.remove(source_path) # 删除 all.zip 
return dataDir# 返回 数据 所 在 目录 

# 具体 设置 

root = 'dqata/ 


NAME = 'dog_cat' 

dataDir = unzip(root, dataDim) 

为 了 以 后 处 理 其 他 的 Kaggle 提供 的 数据 ， 将 unzip 函数 封装 到 了 kaggle 包 下 的 helper 模 
块 中 。unzip 实现 的 功能 是 将 root 下 的 'allzip' 文件 解压 并 返回 解压 后 数据 所 在 的 目录 ， 同 时 也 
将 'allzip' 删除 〈 之 后 用 不 到 了 ) 。 先 看 看 dataDir 目录 下 面 都 是 什么 文件 ? 

代码 如 下 所 示 : 

dataDir = 'dqata/dog_cat 

os.listdir(dqataDin 

代码 如 下 所 示 : 

[sampleSubmission.csv', test1.zip, train.zip] 

文件 'sampleSubmission.csv' 是 kaggle 比赛 提交 预测 结果 的 模板 样式 。 代 码 如 下 所 示 : 

submit = pd.read_csv(os.path.join(dataDir ,sampleSubmission.csv)) 

submit.head() 


图 片 如 下 图 11.1 所 示 。 
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图 11.1 Kagsle 提供 的 标签 样 例 


其 中 id 表示 testzip 中 图 片 的 文件 名 称 ， 比 如 id = 1 代表 图 片 文件 名 为 1jpg。label 表示 图 
片 的 标签 (1=dog,0=cat) 。 训 练 集 和 测试 集 都 是 .zip 压缩 文件 ， 下 面 直 接 利用 类 ImageZ 来 读 
取 数 据 。 人 代码 如 下 所 示 ; 
testset = ImageZ(dataDir, 'test1) # 测试 数据 
trainZ = ImageZz(dataDir train') # 训练 数据 
你 也 许 会 疑惑 ， 训 练 数据 的 标签 昵 ? 其 实 ， 在 https:Wwww.kaggle.comy/c/dogs-vs-cats/data 
中 你 查看 train.zip 便 可 以 发 现 其 类 别 信 息 隐藏 在 文件 名 中 ， 为 此 ， 可 以 直接 碍 看 trainZ 的 
names 属性 。 代 码 如 下 所 示 ; 
trainZ.names[:5] # 查看 其 中 的 5 个 文件 名 
代码 如 下 所 示 ; 
[train/cat.0.jpg ， 
train/cat.1.jpg ， 
train/cat.10.jpg， 
train/cat.100.jpg， 
train/cat.1000.jpg)] 
因而 ， 对 于 训练 数据 可 以 通过 文件 名 来 获知 其 所 属于 的 类 别 。 为 了 与 1]=dog,0=cat 对 应 ， 
下 面 定 义 ， 代 码 如 下 所 示 : 
class_names = (cat, 'dog) 
class_names[1], class_names[0] 
代码 如 下 所 示 ; 
(dog，cat) 


为 了 后 期 处 理 方便 ， 定 义 DataSet 类 。 代 码 如 下 所 示 ; 
class DataSet(ImageZ): 
def _init (self dataDir dataType): 
Super().，_init_(dataDir, dataType) 
self.class_names = (cat', 'dog") # 数据 集 的 类 名 称 
self，、get_name _class_dict() 
def _get_name_class _dict(self): 
self.name_class_dict = 人 # 通过 文件 名 获取 图 片 的 类 别 
class dict = { 
class_name': i 


fori, class_name in enumerate(self.class_names) 
} 
for name in self.names: 
class_name = name.split(.)[O0].spPIt(CZ)[-3 
self.name class_dict[name] = class_dict[class_name|] 
def _iter _ (self): 
for name in self.names: 
# 返回 (data, label) 数据 形式 
yield self.buffer2array(name), self.name_class_dict[name] 
下 面 看 看 如 何 使 用 DataSet 类 。 代 码 如 下 所 示 ; 
dataset = DataSet(dqataDir train') 
forimg, label in dataset: 
print(" 大 小 : img.shape， 标 签 : ,label) # 查看 一 张 图 片 
plt.imshow(img) 
plt.show() 
break 


此 时 有 图 片 输出 ， 如 图 11.2 所 示 。 
大 小 : (374, 500, 3) 标签 : 0 


图 11.2 训练 集中 的 一 张 图 片 


为 了 查看 模型 的 泛 化 性 ， 需 要 将 dataset 划分 为 trainset 
names 属性 进行 划分 。 昌 
cat rec = [] 
dog rec=] 
for name in trainZ.names: 
if name.startswith(traim/cat'): 
cat_rec.append((name, 0)) 
elf name.startswith(train/dog ): 


与 valset， 为 此 需要 将 dataset 的 
于 dataset 的 特殊 性 ， 下 面 对 trainZ 进行 处 理 比 较 好 。 代 码 如 下 所 示 : 


dog _rec.append((name, 1)) 
为 了 避免 模型 依赖 于 数据 集 的 顺序 ， 下 面 将 会 打 乱 原 数 据 集 的 顺序 。 代 码 如 下 所 示 : 
import random 
random.shuffle(cat_rec) # 打 乱 cat_names 
random.shuffle(dog_rec) # 打 乱 dog_names 
train_rec = cat_rec[:10000] + dog_rec[:10000] # 各 取 其 中 的 10000 个 样本 作为 训练 
val_rec = cat_rec[10000:] + dog_rec[10000:] # 剩余 的 作为 测试 
random.shuffle(ltrain_rec) # 打 乱 类 别 的 分 布 ， 提 高 模型 的 泛 化 能 
random.shuffle(val_rec) 
lenltrain_rec), len(val_rec) 
代码 如 下 所 示 ; 
(20000, 5000) 
从 上 面 的 代码 我 们 可 以 知道 ， 训 练 数据 和 验证 数据 的 样本 个 数 分 别 为 : 20000 和 5000。 下 
面 为 了 可 以 让 模型 能 够 使 用 该 数据 集 ， 需 要 定义 一 个 生成 器 ， 代 码 如 下 所 示 : 
class Loader: 
def _init_ (self img2Z, rec, shuffle=False, target_size=None): 
if shuffle: 
random.shuffle(rec) # 训练 集 需 要 打 乱 
self.shuffle = shuffle 
self.imgZ = img2 
selfrec = rec 
self，、 target_size = target_size 
def name2array(self, name): 
# 将 name 转换 为 array 
import cv2 
img = self.imgZ.buffer2array(name) 
if self， target_size: # 将 图 片 resize 为 self-target_size 
return cv2.resize(img, self， target_size) 
else: 
return img 
def _getitem__ (Self item): 
rec = self.rec[item] 
if isinstance(item, slice): 
return [(self.name2array(name), label) for (name, label) in rec] 
else: 
return self.name2array(rec[0]), rec[1] 
def _iter _ (self): 
for name, label in selfrec: 
yield selfname2array(name), label # 返回 (data, label) 
def _len_ (self): 
return len(self.rec) # 返回 数据 样本 数 
这 样 ， 便 可 以 利用 Loader 得 到 随机 划分 后 的 trainset 和 valset。 
trainset = LoaderltrainZ, train_rec, True) # 训练 集 
valset = LoaderltrainZ, val_rec) # 验证 集 
forimg, label in trainset: 
plt.imshow(img) ，# 显示 出 图 片 
plt:title(str(class_names[label))) # 将 类 别 作为 标题 
plt.show() 


break 


图 片 如 图 11.3 所 示 。 


图 11.3 trainset 中 的 一 张 图 片 


数据 处 理 好 之 后 ， 看 看 图 片 的 大 小 ， 代 码 如 下 所 示 : 

name2size = 人 # 获 得 图 片 的 size 

for name in trainZ.names: 

name2size[name] = trainZ.buffer2array(name).shape[:-1] 

min({w forh, win set(name2size.values(0h))), min({h for h, win set(name2size.values()))) 

代码 如 下 所 示 : 

(42, 32) 

从 上 述 代码 可 以 看 出 : 图 片 的 最 小 高 和 宽 分 别 为 32 和 42， 基 于 此 ， 不 妨 将 所 有 的 图 片 均 
resize 为 (130，150)。 


11.2 Gluon 实现 模型 的 训练 和 预测 


Gluon 的 学 习 可 以 参考 我 的 学 习 笔 记 : https:/github.comy/xinetzone/XinetStudio 。 为 了 提高 
模型 的 泛 化 能 力 ， 数 据 增强 技术 是 十 分 有 必要 的 ，Gluon 提供 了 一 个 十 分 方便 的 模块 
transforms， 下 面 我 们 来 看 看 它 的 具体 使 用 。 代 码 如 下 所 示 : 

from mxnet.gluon.data.vision import transforms as gtf 
transform_train = gtf.Compose([ 
# 随 机 对 图 像 裁 航 出 面积 为 原 图 像 面 积 0.08~1 倍 、 且 高 和 宽 之 比 在 3/4~4/3 的 图 像 ， 再 放 缩 为 高 和 
# 宽 都 是 为 150 的 新 图 
gtf.RandomResizedCrop( 
150, scale=(0.08, 1.0), ratio=(3.0 / 4.0, 4.0/1 3.0))， 
gtf.RandomFlipLeftRight()， 
# 随 机 变化 亮度 、 对 比 度 和 饱和 度 
gtf.RandomColorJitter(brightness=0.4, contrast=0.4, saturation=0.4)， 
# 随机 加 噪声 
gtf.RandomLighting(0.1)， 
gtf.ToTensor()， 
# 对 图 像 的 每 个 通道 做 标准 化 
gtf.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) 


]) 
transform_test = gtf.Compose([ 
gtf.Resize(256)， 
# 将 图 像 中央 的 高 和 宽 均 为 150 的 正方 形 区 域 裁剪 出 来 
gtf.CenterCrop(150)， 
gtf.ToTensor()， 
gtf.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) 
]) 
由 于 Gluon 的 数据 输入 是 mxnetndarray.ndarray.NDArray 类 型 的 数据 ， 而 Loader 类 的 输出 


是 numpy.ndarray 类 型 的 数据 ， 因 而 ， 需 要 改写 Loader 类 。 


from mxnet import nd, gluon 
from mxnet.gluon import data as gdata 
class GluonLoader(Loader, gdata.Dataset): # gdata.Dataset 是 gluon 处 理 数 据 的 基 类 之 一 
def _init_ (self, imgZ, rec): 
super().，_init _(imgzZ, rec) 


def name2array(self name): 
return nd.array(self.imgZz.buffer2array(name)) # 将 name 转换 为 array 

下 面 可 以 看 看 GluonLoader 类 实现 了 哪些 有 趣 的 功能 ? 

train_ds = GluonLoaderltrainZ, train_rec) 

valid_ ds = GluonLoader(trainZ, val_rec) 

forimg, label in train_ds: 
printlttypelimg), img.shape, label) 
break 

输出 : 

<class mxnetndarray.ndarray.NDArray > (391 500, 3) 0 

此 时 ，img 已 经 满足 Gluon 所 创建 的 模型 的 输入 数据 要 求 。 对 于 图 像 分 类 任务 ， 卷 积 神经 


网 络 无 疑 是 一 个 比较 好 的 模型 。 对 于 卷 积 神经 网 络 来 说 ， 一 般 会 采用 小 批量 随机 梯度 下 降 优化 
策略 来 训练 模型 。 我 们 需要 将 数据 转换 为 批量 形式 ， 而 gluon.data.DataLoader 为 我 们 实现 该 功 
能 提供 了 便利 ， 代 码 如 下 所 示 ; 


from mxnet.gluon import data as gdata 

batch_size = 16 # 批量 大 小 

train_iter = gdata.DataLoader( “# 每 次 读 取 一 个 样本 数 为 batch_size 的 小 批量 数据 
train_ds.transform_firstttransform_train)，# 变换 应 用 在 每 个 数据 样本 〈 图 像 和 标签 ) 的 第 一 个 元 素 ， 

即 图 像 之 上 


batch_size， 
shuffle=True， # 训练 数据 需要 打 乱 
last_batch='keep) # 保留 最 后 一 个 批量 


valid_iter = gdata.DataLoader( 
valid_ds.transform _first(transform_test)， 
batch_size， 
shuffle=True， # 验证 数据 需要 打 乱 
last_batch='keep) 


train_ds.transform_first(transform_train) 和 valid_ds.transform_first(transform_tesb 均 将 原 数 


霄 应 用 了 数据 增强 技术 ， 并 将 其 转换 为 了 适合 Gluon 所 创建 卷 积 神经 网 络 的 输入 形式 。 


11.2.1 建立 并 训练 模型 


在 建立 本 章 所 需要 的 模型 之 前 ， 先 了 解 一 些 卷 积 神经 网 络 的 必 备 知识 。 卷 积 神经 网 络 简单 


的 说 就 是 含有 卷 积 层 的 神经 网 络 。 神 经 网 络 就 是 具有 层级 结构 的 神经 元 组 成 的 具有 提取 数据 的 


多 级 特征 的 机 器 学 习 模 型 。 


一 个 神经 元 由 仿 射 变换 《〈 抢 阵 运算 ) + 非 线 性 变换 《被 称 为 激活 函数 ) 组 成 。 在 Gluon 中 


卷 积 运算 由 nn.Conv2D 来 实现 。 


二 维 卷 积 层 输出 的 数组 可 以 看 作 是 数据 在 宽 和 高 维度 上 某 一 级 的 特征 表示 《也 叫 特征 图 


(feature map) 或 表征 ) 或 是 对 输入 的 响应 〈 称 作 响 应 图 〈response map) ) ， 代 码 如 下 所 示 : 


# 载 入 一 些 必 备 包 

from mxnet import autograd, init, gluon 

from mxnet.gluon import model_zoo 

import d2lzh as d2l 

from mxnet.gluon import loss as gloss, nn 

from gluoncv.utils import TrainingHistory # 可 视 化 

from mxnet import metric # 计算 度量 的 模块 

nn.Conv2D 常用 参数 : 

@ channels: 下 一 层 特 征 图 的 通道 数 ， 即 卷 积 核 的 个 数 。 

@ kernel _ size: 卷 积 核 的 尺寸 。 

@ activation: 激活 函数 。 

还 有 一 点 需要 注意 : 卷 积 层 的 输出 可 由 下 面 的 公式 来 计算 ; 

Pi 一刻 十 2 

一 人 十 1 


Wi 一 九 十 2 
Wout 三 | 二 写 午 


@ houb wout 表示 卷 积 层 的 输出 的 特征 图 尺寸 。 

@ hin win 表示 卷 积 层 的 输入 的 特征 图 尺寸 。 

@ 和,fw 表示 卷 积 核 的 尺寸 ， 即 nn.Conv2D 的 参数 kernel_size。 

@  s 表示 卷 积 核 移 动 的 步 长 ， 即 nn.Conv2D 的 参数 strides。 

@  p 表示 卷 积 层 的 输入 的 填充 大 小 ， 即 nn.Conv2D 的 参数 padding， 减 小 边界 效应 
的 影响 。 

虽然 ， 使 用 步 进 卷 积 〈strides 大 于 1) 可 以 对 图 像 进行 下 采样 ， 但 是 ， 一 般 很 少 使 用 


互 


带 来 


二 


站 
书 。 


一 般 地 ， 可 以 使 用 池 化 操作 来 实现 下 采样 。 在 Gluon 中 使 用 nn.MaxPool2D 和 nn.AvgPool2D 


实现 。 
下 面 创 建 模型 并 训练 ; 

# 创建 模型 

model = nn.HybridSequential() 

model.add( 
nn.BatchNorm(), nn.Activation(relu)，# 批量 归 一 化 
nn.MaxPool2D((2, 2))， # 最 大 池 化 
nn.Conv2D(32, (3, 3))， # 32 个 卷 积 核 尺 寸 为 (3，3) 
nn.BatchNorm(), nn.Activation(relu)， 
nn.MaxPool2D((2, 2))， # 最 大 池 化 


nn.Conv2D(64, (3, 3))， # 64 个 卷 积 核 尺 寸 为 (3，3) 


nn.BatchNorm(, nn.Activation( relu )， 


nn.MaxPool2D((2, 2))， # 最 大 池 化 

nn.Conv2D(128, (3, 3))， # 128 个 卷 积 核 尺 寸 为 (3，3) 
nn.BatchNorm(), nn.Activation(relu )， 

nn.MaxPool2D((2, 2))， # 最 大 池 化 


nn.Conv2D(512, kernel_size=1), # 1 x 1 卷 积 进行 降 维 
nn.BatchNorm(), nn.Activation(relu')， 
nn.GlobalAvgPool2D()， # 全 局 平均 池 化 
nn.Dense(2) “# 输出 层 
) 
return model 
def evaluate loss(data_iter, net， ctx) : 
| sum,n = 0.0, 0 
for X, y in data_iter: 
y=y.as_in_context(ctx).astype(float32") # 模型 的 输出 是 float32 类 型 数据 
outputs = net(X.as_in_context(ctx)) # 模型 的 输出 
| sum += loss(outputs, y).sSum().asscalar() # 计算 总 损失 
n += y.Size # 计算 样本 数 
return | sum /n # 计算 平均 损失 
def test(valid_iter, net, ctx): 
val_metric = metric.Accuracy() 
for X, y in valid_iter: 
X = X.as_in_context(ctx) 
y=y.as_in_context(ctx).astype(float32") # 模型 的 输出 是 float32 类 型 数据 
outputs = net(X) 
val_metric.update(y, outputs) 
return val_metric.get() 
def train(net, train_itenr valid_iter num_epochs, In" wd, ctx, model_name): 
import time 
trainer = gluon.Trainer(net.collect_params(),， rmsprop , { 
earning_rate': Ir wd': wd)) # 优化 策略 
train_metric = metric.Accuracy() 
train_history = TrainingHistory([training-error, validation-error]) 
best val _ score = 0 
for epoch in range(num_epochs): 
train_ | sum, n, start = 0.0, 0, time:time() # 计时 开始 
train acc_sum = 0 
train_metric.reset() 
for X, yin train_iter: 
X = X.as_in_context(ctx) 
y=y.as_in_context(ctx).astype(float32") # 模型 的 输出 是 float32 类 型 数据 
with autograd.record(): # 记录 梯度 信息 
outputs = net(X) “# 模型 输出 
1= loss(outputs, y).sum() # 计算 总 损失 
l.backward() # 反 向 传播 
trainer.step(batch_size) 
train_ | _ sum += l.asscalar() # 计算 该 批量 的 总 损失 
train_metric.update(y, outputs) # 计算 训练 精度 
n += y.Size 


_train_acc=train_metric.get() 
time _s = ime { 人 .2f sec".formatltime:time() - start) # 计时 结束 
valid loss = evaluate_ loss(valid_iter, net, ctx) # 计算 验证 集 的 平均 损失 
_,val_acc =test(valid_iter net, ctx) # 计算 验证 集 的 精度 
epoch_s = ("epoch {:dj, train loss {:.5f}， valid loss 人.5fj ,train acc {1.5f}, valid acc 人 .5 和 .format( 
epoch, train_ | _ sum /mn, valid_ loss, train_acc, val_acc)) 
print(epoch_s +time _S) 
train_history.update([1-train_acc, 1-val_acc]) # 更 新 图 像 的 纵 轴 
train_history.plot( 
save_path='f/f_history.png'format(images, model_name)) # 实时 更 新 图 像 
ifval_acc > best_val_score: # 保存 比较 好 的 模型 
best val_score = val_acc 
net.save_parameters( 
人 41 人 9d})-best.params'.format(models, best_ val_score, model_name, epoch)) 
loss = gloss.SoftmaxCrossEntropyLoss() # 交叉 灶 损 失 函 数 
ctx, num_epochs, Ir wd = d2l:try_gpu(), 30, 1e-3, 1e-5 
net = get_net() 
# 在 ctx 上 训练 “如 果 有 gpu， 那 么 在 gpu 上 训练 ) 
net.initialize(init.Xavier(), ctx=ctx) “# 模型 初始 化 
net.hybridize() # 转换 为 符号 式 编程 
train(net, train_iter valid_iter num_epochs, Ir wd, ctx, "dog_cat) 
其 输出 结果 ， 如 图 11.4 所 示 ，Onut [7.20]: 
def get_net(ctX): 
epoch 0, train loss 0.69837, valid loss 0.65844, train acc 0.55850, valid acc 0.60940, time 185.46 sec 
epoch 1, train loss 0.66408, valid loss 0.60767, train acc 0.60845, valid acc 0.67960, time 182.20 sec 
epoch 2, train loss 0.64790, valid loss 0.61149, train acc 0.62825, valid acc 0.67880, time 169.60 sec 


一 一 training-error 
一 一 alidation-error 
08 ] 


06 ] 


04] 


02] 


00 T T T T T T 国 


图 11.4 epochs=30 训练 结 


上 面 创 建 的 模型 是 依据 VGG 结构 进行 改写 的 ， 同 时 为 了 加 快 模型 训练 加 入 了 
nn.BatchNorm， 即 批量 归 一 化 。 训 练 次 数 有 点 少 ， 加 大 训练 次 数 到 100， 得 到 如 图 11.5 所 示 。 


一 一 Taining-error 


一 一 Validation-error 
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图 11.5 epochs=100 训练 结 


可 以 看 出 已 经 有 了 十 分 不 错 的 效果 ， 在 验证 集 的 准确 度 在 0.9 附近 。 


11.2.2 模型 测试 


在 此 之 前 ， 本 章 是 在 tainzip〔 训 练 数据 集 ) 上 进行 训练 和 验证 ， 而 最 终 的 目的 是 在 
testl.zip〈 测 试 集 》 上 预测 其 分 类 结果 。 下 面 重新 载 入 之 前 已 经 训练 好 的 模型 〈 第 100 个 epoch 
验证 集 的 准确 度 为 0.91112) 。 

net = get_net0， # 定义 网 络 结构 


ctx = gd2ltry_gpu() # 如果 有 gpu， 那 么 在 gpu 上 训练 
net.load_parameters 人 filename='models/0.9112-dog_cat-99-best.params', ctx=ctx) # 在 ctx 上 测试 
net.hybridize( # 转换 为 符号 式 编程 
class Testset(lImageZ): 
def _init_(self root dataType' cty): 
super(0.，、init (root dataType) 


Selfctx = ctX 
def name2label(self name): 
img = self.buffer2array(name) 
X = transform_test(nd.array(img)).expand dims( 
axis=0).as_in_context(selfctx) # 将 NumPy 转换 为 Gluon 定义 的 网 络 需要 的 格式 
return int(net(X).argmax(axis=1T).asscalar() # 返回 预测 结果 


def _getitem__(self itern): 
# 数 据 集 切 片 
names = selfnames[item] 
if isinstance(item, slice): 
return [(name, selfname2lapbel(name)) for name in names] 


else: 
return names, selfname2label(names) 


def _iter (se 几 : 
for name in selfnames: # 迭代 
yield name, selfname2label(name) ## 返回 (name, label) 


# 载 入 pandas 处 理 标签 
import pandas as pd 
_testset = Testset(dataDir 'test1, ctx) # 实例 化 
df = pd.DataFrame.from_records( 

(name.split(V)[-1T.split(.)[O label) for name, label in testset) 
dfcolumns = [id, label] # 定 义 数 据 的 表 头 
dfto_csv(data/dog_cat/results.csv', index=False) # 预测 结果 保存 到 本 地 


至 此 ， 完 成 测试 集 的 预测 ， 由 于 该 比赛 已 经 结束 ， 无 法 提交 结果 ， 来 查看 


测试 4 


的 准确 


所 以 ， 我 们 仅仅 将 其 保存 到 本 地 ， 而 没有 提交 最 终结 果 到 Kaggle 上 。 


11.3 可 视 化 中 间 层 的 输出 


下 面 直接 借 助 前 面 训练 好 的 模型 ， 看 看 卷 积 神 经 网 络 到 底 训 练 出 什么 东西 ? 
testset = ImageZ(dataDinr 'test1) # 测试 数据 
class_names = (cat, 'dog) “# 类 别名 称 
ctx = d2ltry gpu0 # 训 练 的 设备 
net = get_net(ctg) # 在 ctx 上 训练 
# 加 载 模型 参数 
net.load_parameters(models0.9112-dog_cat-99-best.params ) 
net.collect_params().reset_ctx(ctx) # 加 载 网 络 到 ctx 
net.hybridize(0 # 符号 化 
先 看 看 其 中 一 张 图片 ， 如 图 11.6 所 示 。 
for img in testset # 从 测试 集 取出 一 张 图 片 
# 转换 格式 以 适用 模型 
X = loadertransform_test(nd.array(img)).expand_dims(axis=0).as_in_context(ctx) 
y = net(X) # 获取 网 络 的 输出 
label = class_names[y.argmax(1).astype(int ).asscalar()] 
# 可 视 化 
pltimshowkimg) 
plttitle(label) 
pltshow0 
break 


图 11.6 一 张 测 试 集 的 图 片 


在 此 ， 标 注 了 图 片 预测 的 类 别 信息 ， 可 以 看 出 模型 没有 预测 错误 。 下 面 再 来 看 看 中 间 层 的 
输出 情况 : 
# 取出 测试 集 的 第 10 张 图 片 ， 并 将 其 转换 为 模型 的 输出 格式 
X = loadertransform_test(nd.array(testset[10])).expand_dims(axis=0).as_in_context(ctX) 
forlayerin net' # 遍历 中 间 层 
X = layer(X)，# 获取 中 间 层 的 输出 
# 筛选 出 pooling 层 与 卷 积 层 
if layer.name.startswith(pool) or layer.name.startswith(conv'): 
K= X.asnumpy(0[O] # 转换 为 plt 的 输入 形式 
Size = Kshape[0] # 获 取 通 道 大 小 
ifsize == 3: # 此 时 是 原 图 最 初 的 运算 
imgs = np.Concatenate(k, axis=-1) 


else: 
1 二 0 
whilei <= size 8: # 以 8 为 单位 平 铺 该 层 的 所 有 输出 
imgs = np.concatenate(k[ii+8], axis=-1) 
i++= 8 
pltmatshow(imgs cmap=viridis) # 画 出 特征 图 
plttitlelayername) # 标注 该 层 的 名 称 
pltshow(0 
从 图 11.7 可 以 看 出 ， 随 着 层 数 的 加 深 ， 该 层 所 表达 的 信息 逐渐 丰富 起 来 : 刚 开始 表达 的 
是 图 像 的 边缘 与 轮廓 ， 最 后 可 以 表达 图 像 的 内 容 或 者 语义 信息 〈“ 猫 ”这 一 概念 ) 。 
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11.7 中 间 层 的 可 视 化 


11.4 本 章 小 结 


本 章 利 用 Kaggle 上 的 一 个 数据 集 设计 了 一 个 简单 的 分 类 模型 。 在 设计 该 模型 的 过 程 中 借 
助 于 ImageZ 载 入 数据 ， 之 后 利用 MXNet 设计 一 个 类 似 于 VGG 的 网 络 结构 用 来 训练 数据 ， 最 
后 对 测试 数据 进行 预测 ， 并 通过 一 张 测试 图 片 来 查看 本 章 设 计 的 网 络 的 中 间 层 的 输出 所 表达 的 


语义 信息 。 


第 12 章 利用 GluonCyV 学 习 Faster RCNN 


本 章 的 目标 是 理解 和 学 习 Faster RCNN， 所 以 不 会 介绍 如 何 跑 模型 。EFaster RCNN 主要 分 
为 两 个 部 分 : 
@RPN (Region Proposal Network) 生成 高 质量 的 region proposal。 
@FastR-CNN 利用 region proposal 做 出 检测 与 识别 。 
为 了 更 好 的 理解 FasterRCNN， 下 面 简要 的 叙述 论文 的 关键 内 容 。 


12.1 初 识 RPN 


Faster RCNN 的 作者 将 PN 比 作 神 经 网 络 的 注意 力 机 制 “attention” mechanisms ) ， 告 诉 


了 网 络 看 向 哪里 。RPN 并 不 复杂 ， 它 的 输入 与 输出 ; 
@Input: 任意 尺寸 的 图 像 。 
@Output: 一 组 带 有 目标 得 分 的 目标 矩形 proposals。 
RPN 为 了 生成 region proposals， 在 基 网 络 的 最 后 一 个 卷 积 层 上 滑动 一 个 小 网 络 。 该 小 网 络 
由 一 个 3 x 3 卷 积 convl 和 一 对 兄弟 卷 积 〈 并 行 的 ) 1 x 1 卷 积 loc 和 score 组 成 。 其 中 ，conv1l 
的 参数 padding=1，stride=1l 以 保证 其 不 会 改变 输出 的 特征 图 的 尺寸 。 
loc 作为 box-regression 用 来 编码 box 的 坐标 ，score 作为 box-classifaction 用 来 编码 每 个 
proposal 是 目标 的 概率 。 详 细 内 容 见 我 的 博客 : 我 的 目标 检测 笔记 
Chttps://www.cnblogs.com/q735613050/p/10573794.html) 。 一 般 地 ， 不 同 scale〈 尺 度 ) 和 
aspect ratio 〈 长 宽 比 ) 组 合 的 kk 个 reference boxes 〈 人 参数 化 的 proposal) 称 作 anchors 〈 锚 点 ) ， 
同时 锚 点 也 是 滑 块 《Window) 的 中 心 。 
为 了 更 好 的 理解 anchors， 下 面 以 Python 来 展示 其 内 涵 。 


上 所 


12.1.1 锚 点 


首先 利用 第 7 章 的 COCO 中 介绍 的 API 来 获取 一 张 COCO 数据 集 的 图 片 及 其 标注 。 先 载 


入 一 些 必 备 的 包 : 
import CV2 
from matplotlib import pyplot as plt 
import numpy as np 
尖 袁 信 coco 她 和 关 apD1i 
import SyS 
sys.path.append('D:/APlMcocoapVyPythonAPI) # Cocoapi 所 在 路 径 
from pycocotools.dataset import Loader ## 载 入 Loader 


%matplotlib inline 


利用 Loader 载 入 val2017 数据 集 ， 并 选择 包含 *cat' ，dog'，"personm 的 图 片 ; 


dataType = val2017' ## 选 取 2017 的 验证 集 
root = 'EData/coco' # coco 的 根 目 录 
catNms = [cat， "dog， 'personl] # 妆 别 名 称 
annType =  'annotations_ trainval2017' # 标注 文件 的 名 称 
loader = Loader(dqataType, catNms, root, annType) # 载 入 数据 集 的 图 片 及 其 标签 

输出 结果 : 

Loading json in memory 喧 
Used time: 0.762376 S 
Loading json in memory 有 
creating index... 
index createdl 


Used time: 0.401951 s 
可 以 看 出 ，Loader 载 入 数据 的 速度 很 快 。 为 了 更 加 详细 的 查看 loader， 下 面 打 印 出 现 一 些 


相关 信息 : 
print(f 总 此 包 襄 图 片 flen(lloaden)} 张 ) 
for 上 ann in enumerate(loader.images): 
W h 三 ann[height'], ann[width)] 


printf 第 fH1} 张 图 片 的 高 和 宽 分 别 为: {w, hj) 


显示 : 


总 震 包 含 图 片 2 张 
第 1 张 图 片 的 高 和 席 分 别 为 : (612， 612) 


第 2 张 图 片 的 高 和 宽 分 别 为 : (500, 333) 

下 面 以 第 1 张 图 片 为 例 来 探讨 anchors。 先 可 视 化 ; 

img， labels = loader[0] # 选择 数据 集 的 第 一 张 片 及 其 标签 
plt.imshow(img); ## 可 视 化 

输出 如 图 12.1 所 示 。 


0 lo0 200 300 400 500 600 


图 12.1 COCO 中 的 一 张 图 片 


为 了 特征 图 的 尺寸 大 一 点 ， 可 以 将 其 resize 改 为 (800, 800, 3): 

img = cv2.resize(img， (800， 800)) 
print(img.shape) 

输出 : 

(800, 800, 3) 

下 面 借助 MXNet 来 完成 接 下 来 的 代码 编程 ， 为 了 适 配 MXNet， 需 要 将 图 片 由 (h，w, 3) 转 


换 为 (3, w, 形式: 


涡 : 


img 三 img.transpose(2， 1 0) 
print(img.shape) 

输出 : 
(3, 800, 800) 

由 于 卷 积 神经 网 络 的 输入 是 四 维 数据 ， 所 以 还 需要 : 

img 三 np.expand dims(img， 0) 
print(img.shape) 

输出 : 

(1, 3, 800, 800) 

为 了 和 论文 一 致 ， 我 们 也 采用 VGG16 网 络 〈 载 入 gluoncy 中 的 权重 ) : 
from gluoncv.model_zoo import vgg16 
net = vgg16(pretrained=True) # 载 入 权重 


仅仅 考虑 直至 最 后 一 层 卷 积 层 (去 除 池 化 层 ) 的 网 络 ， 下 面 查看 网 络 的 各 个 卷 积 层 的 输出 情 


ai 
5 


from mxnet import nd 
imgs = nd.array(img) # 转 换 为 mxnet 的 数 据 类 型 
X 三 imgs 
for layer in net.features[:29]: 


X 三 layer(X) 


于 f 


"co nv" 


printllayer.name, x.shape) # 输出 该 卷 积 层 的 shape 


结果 为 ; 

vgg0_conv0 (1， 64， 800， 
vgg0_conv1 (1， 64， 800， 
Vvgg0_conv2 (1， 128， 400， 
vgg0_conv3 (1 ， 128， 400， 
Vvgg0_conv4 (1， 256， 200， 
vgg0_conv5 (1， 256， 200， 
vgg0_conv6 (1， 256， 200， 
Vvgg0_conv7 (1， 让 2 100， 
vgg0_conv8 (1， 512， 100， 
Vvgg0_conv9 (1， 512， 100， 
vgg0_conv10 (1， 2 50， 
Vvgg0_conv11 (1， Si 50， 


vgg0_conv12 (1, 512, 50, 50) 


layer.name: 


12.1.2 感受 野 


上 面 的 16 不 仅仅 是 针对 尺寸 为 (800, 800)， 它 
一 个 像素 点 的 感受 野 〈receptive field ) 。 

感受 野 的 大 小 是 如 何 计算 的 ?我 们 回忆 卷 积 
职 计算 的 逆 过 程 〈 参 考 感受 野 计 算 ) 。 

记 Flu Su Re 分 | 


移动 步 长 〈stride) 、 


运算 的 过 程 ， 便 可 发 现 感受 野 的 计算 恰 ， 


这 表示 第 k 层 的 输出 特征 图 的 高 〈 或 者 帘 
大 一 As 


zi1 = 上 | 二 II ( 式 12.1) 


}， 且 im 表示 原 图 的 高 或 者 宽 。 令 太 = 生 
(xi 一 了 =( 区 一 Se 十 2tr 


工 中 帮 E {12… 


( 式 12.2) 


反 推 感受 野 ， 令 训 = 忆 ， 且 认 = 攻 且 1 < < 工 ， 则 有 式 12.3: 


io 三 二 一 了 Ji 十 厅 《 式 12.3) 
鞭 中 or = [LE-:S， 且 有 式 12-4: 
启运 二 下 02 本 0 硬 并 或 位 和 


层 才 使 得 $j = 2， 故 而 凡 = 0， 且 有 ou = 24 = 16。 


12.1.3 锚 点 的 计算 


在 编程 实现 的 时 候 ， 将 感受 野 的 大 小 使 
了 计算 的 方便 ， 先 定义 一 个 Box: 


base_size 来 表示 。 


。 这 样 ， 很 容易 得 出 如 式 12.1 所 示 的 递 推 


由 于 VGG16 的 卷 积 核 的 配置 均 是 kernel_size=(3,3)，padding=(1,1D)， 同 时 只 有 在 


由 此 ， 可 以 看 出 尺寸 为 (800, 800) 的 原 图 变 为 了 (50, 5S0) 的 特征 图 〈 比 原来 缩小 了 16 倍 ) 


适用 于 任意 尺寸 的 图 片 ， 因 为 16 是 特征 图 的 


京 
误 
谎 
旺 


Padding 个 数 ， 记 


公式 ; 


上 和 式 可 以 转换 为 式 12.2: 


经 过 池 化 


HH 


下 面 讨论 如 何 生成 锚 框 ? 为 


def 

Self，、corner 
@property 
def 

return 
@corner.setter 
def 

self、corner 
@property 
def 

## 

return 
@property 
def 

## 

return 
@property 
def 

## 

return 
@property 
def 

## 

asset 

Xctr 

yctr 

return 
def 


计 


return 
else: 
return 


return 
else: 
return 


Corner : 


计 


numpy 


Numpy， 


算 


self.corner[2] 


计 


曲 


self.corner[3|] 


计 


志 


isinstance(self.w， 


max 


miIn 
max 


mIn 


曾 


List， 
__init __ (self， 


corner(self， 


bbox 


self.w 


self.corner[0] 
self.corner[1] 


& ， 


self.corner[0]， 
self.corner[2]， 
self.corner[1]， 
self.corner[3]， 


or _h 


self.area 


XcCtr， 
_ and _ (self， 


实 现 两 


other.corner[0] 
other.corner[2] 
other.corner[1] 
other.corner[3] 


xmax 
ymax 


两 


Tuple， 


bbox 


asS 


MXNet.nd， 


的 


self.corner[0] 


bbox 


的 


Self.corner[1] 


float))， 


(Self.w - 


(self.h 


个 


See 


厅 间 夺 间 


各 


other.area 


壬 隔 隔 了 嫩 装 


np 

Box: 
rotch.tensor 
cornen): 
corner 


corner(self): 
Self，、corner 


new_cornen): 
new_corner 


WwW(self): 


3 


area(Sselh): 
积 
self.h 


whctrs(self): 
坐 标 


要 靶 否 靶 汶 


说 


othenm): 
运算 
other 

0: 

0 


def loU(self， othen): 


# 计 算 loU 
| = Self & other 
if | == 0 
return 0 
else: 
U 三 Self | other 
return 1/U 
类 Box 实现 了 bbox 的 交集 、 并 集运 算 以 及 IoU 的 计算 。 下 面 举 一 个 例子 来 说 明 ， 
bbox 三 [0， 0， 15， 15] ## 边 珊 框 
bbox1 三 降 二 12， 12] ## 边 珊 框 
A = Box(bbox) # 二 从 bbox 实 例 


B = Box(bbox1)# 一 个 bbox 实例 
下 面 便 可 以 输出 A 与 B 的 高 宽 、 中 心 、 面 积 、 交 集 、 并 集 、Iou: 


print('A 与 B 的 交 集 str(A & B)) 
print('A 与 B 的 并 集 str(A | B)) 
print(A 与 B 的 loU'， str(AJoU(B)J)) 
print('A 的 中 心 、 高 、 宽 以 及 面积 , str(A.whctrs), A.h, A.w, A.areal) 

输出 结果 : 

A 司 B 的 变 集 49 
A 与 B 的 并 集 271 


A 与 B 的 loU 0.18081180811808117 
A 的 中 心 、 高 、 宽 以 及 面积 (7.5, 7.5) 16 16 256 


考虑 到 代码 的 可 复 用 性 ， 将 Box 封装 进入 app/detection/bbox.py 中 。 下 面 重 新 考虑 loade， 


首先 定义 一 个 转换 函数 : 
def getX(img): 
# 将 img (h， w， 3) 转 换 为 (1， 93， WwW， 山 
img 三 img.transpose((2， | 0)) 


return np.expand dims(img, 0) 


函数 ge 区 将 图 片 由 (h, w, 3) 转 换 为 (1, 3, w, hb): 


img， label 三 loader[0] 
img 三 cv2.resizelimg， (800， 800)) ## resize 为 800 兴 800 
X = getX(img) # 转 换 为 (1， 3，  w， 山 
img.shape, X.shape 

输出 结果 : 


((800, 800, 3), (1 3, 800, 800) 
与 此 同时 ， 获 取 特 征 图 的 数据 : 


features 三 net.features[:29] 
F =- features(imgs) 
F.shape 
输出 : 


(1 512, 50, 50) 
接着 需要 考虑 如 何 将 特征 图 上 映射 回 原 图 ? 


12.1.4 全 卷 积 (FCN) : 将 锚 点 映射 回 原 图 


faster R-CNN 中 的 FECN 仅仅 是 有 着 FCN 的 特性 ， 并 不 是 真正 意义 上 的 卷 积 。faster R- 


CNN 仅仅 是 借用 了 FCN 的 思想 来 实现 将 特征 图 映射 回 原 图 的 目的 ， 同 时 将 输出 许多 锚 框 。 


特征 图 上 的 1 个 像素 点 的 感受 野 为 16 x 16， 换 言 之 ， 特 征 图 


网 来 生成 不 同 的 锚 框 。 


上 的 锚 点 映射 回 原 图 的 感受 


区 域 为 16 x 16， 论 文 称 其 为 reference box。 下 面相 对 于 reference box 依据 不 同 的 尺度 与 高 宽 比 


base size = 2**4 # 特征 图 的 每 个 像素 的 感受 野 大 小 
reference box 的 尺度 


scales = [8 16，32] # 锚 框 相 对 于 


ratios = [0.5, 1, 2] # reference box 与 锚 框 的 高 宽 的 比率 〈aspect ratios ) 
其 实 reference box 也 对 应 于 论文 描述 的 window “滑动 窗口 ) ， 这 个 之 后 再 解释 。 我 们 先 


看 看 scales 与 ratios 的 具体 含义 。 


为 了 更 加 一 般 化 ， 假 设 reference box 图 片 高 宽 分 别 为 huw， 而 锚 框 的 高 宽 分 别 为 ht,wl， 


攻 式 化 scales 与 ratios 为 公式 12.5: 


Wi 

WwW 

j 玉 ji Wi 
一 三 一 7 之 一 = 一 7 
W1 ”了 W 六 W 


可 以 将 上 式 转换 为 公式 12.6: 


( 丈 12.5) 


( 丈 12.6) 


( 丈 12.7) 


( 丈 12.8) 


w1 3S 
ww 好 
忆 
0 
六 册 
同样 可 以 转换 为 公式 12.7: 
二 
和 尖 
各 
hs = 一 三 hvV7 
S 
基于 公式 12.5 与 公式 12.7 均 可 以 很 容易 计算 出 wu hi. 一 般 地 ，w = h， 公 式 12.7 亦 可 以 转 
换 为 公式 12.8: 
WwW 
JW 三 
六 . = ws7 


gluoncv 结合 公式 12.8 来 编程 ， 本 文 依据 12.7 进行 编程 。 无 论 原 图 的 尺寸 如 何 ， 特 征 图 的 


左上 角 第 一 个 锚 点 映射 回 原 图 后 的 reference box 的 bbox = (xmain, ymin, xmax, ymax) 均 为 (0, 0， 
bas_size-1, base_size-1)， 为 了 方便 称呼 ， 我 们 称 其 为 base_reference box。 基 于 base_reference 


为 base_anchors。 编 程 实现 : 


box 依据 不 同 的 s 与 r 的 组 合生 成 不 同 尺 度 和 高 宽 比 的 锚 框 ， 且 称 
class 
def __init _ (self， base _Ssize， 
放 not 
raise ValueError("Invalid base_ size: 


MultiBox(Box): 

ratios， Scales): 
base _ Size: 

们 "format(base_Ssize)) 


if not isinstance(ratios， (tuple， list)): 


ratios 三 [ratios] 
if not 一 (tuple， list)): 
Scales [scales] 


super()，_init_([0]*2+[base_size-1]*2)  # 特征 图 的 每 个 像素 的 感受 野 大 小 为 base_ size 
# reference box 与 销 框 的 高 宽 的 比率 ( aspect ratios ) 


self，ratios 三 np.array(ratios)[;， None|] 
self，scales = np.array(scales) # 锚 框 相对 于 reference box 的 尺度 
@property 
def base _anchors(self): 
WwWS = np.round(self.w / np.sqrt(self，ratios)) 
W 三 WS 本 self. scales 
h 三 WwW self，、ratios 
wh 三 np.stack([w.flatten()， h.flatten ()]， axis=1) 
wh = (wh - 1) 旺 
return np. whctrs - wh， self.whctrs 十 wh]， axiS=1) 
def _generate_anchors(self， Stride， alloc_size): 
## propagete to all locations by Shifting offsets 
height， width = alloc_size # 特 征 的 尺 寸 
offset_X 三 np.arange(0， width Stride， Stride) 
offset y 三 np.arange(0， height stride， Stride) 
offset_X， offset y = np.meshgrid(offset_xX， offset y) 
offsets = np. 8 X.ravel()， offset_y.ravel()， 
offset_x.ravel()， offset_y.ravel())， axis=1) 
# broadcast_ add (1 ， N， 4) 十 (M， 局 4) 
anchors = (self.base_anchors.reshape( 
(1， -1， 4)) 十 offsets.reshape((-1， 1， 4))) 
anchors 三 anchors.reshape((1， 让 height， width， -1)).astype(np.float32) 
return anchors 
下 面 看 看 具体 效果 : 
base size = 2**4 # 特 征 的 每 个 像素 的 感受 野 大 小 
scales = [8 16， 32] # 锚 框 相 对 于 reference box 的 尺度 
ratios = [05，1 2] # reference box 与 锚 框 的 高 宽 的 比率 (aspect ratios ) 
A 三 MultiBox(base _size,ratios， Scales) 
A.base_anchors 
输出 结果 : 
array([[ -84.， -38,， 99 53.]， 
[-176,，， -84.， 191.， 99.]， 
[-360.， -176.， 5 191.]， 
[ -56.， -56.， 二 71.]， 
[-120,，， -120,， 135.， 135.]， 
[-248,， -248,， 263,， 263.]， 
[ -36,， -80.， 5 95.]， 
[ -80.， -168.， 95.， 183.]， 


[68. 344， 183. 359]) 
接着 考虑 将 base_anchors 在 整个 原 图 上 进行 滑动 。 比 如 ， 特 征 图 的 尺寸 为 (5, $) 而 感受 野 

的 大 小 为 S0， 则 base_reference box 在 原 图 滑动 的 情况 〈 移 动 步 长 为 S0) 如 下 图 : 

X， y = np.mgrid[0:300:50， 0:300:50] 

plt.pcolor(x, y, x+y); #X 和 y 是 网 格 ,z 是 (x,y) 坐 标 处 的 颜色 值 colorbar() 


输出 结果 如 图 12.2 所 示 。 
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图 12.2 np.mgrid 的 使 用 示例 民 

原 图 被 划分 为 了 25 个 block， 每 个 block 均 代 表 一 个 reference box。 若 base_anchors 有 9 个 ， 
则 只 需要 按照 stride = 50 进行 滑动 便 可 以 获得 这 25 个 block 的 所 有 锚 框 〈 总 计 SxSx9=225 个 ) 。 
针对 前 面 的 特征 图 F 有 : 


stride = 16 ## 滑 动 的 步 长 
alloc_size = F.shape[2:] ## 特 征 图 的 尺 寸 
anchors = A._ generate_anchors(stride, alloc_size).shape 


输出 结果 : 

(二 50 50, 36) 

即 总 共 50 x 50 x 9 = 22500 个 锚 点 (anchors 数量 庞大 且 必 然 有 许多 的 高 度 重 琶 的 框 ) 。 
至 此 ， 我 们 生成 初始 锚 框 的 过 程 便 结束 了 ， 同 时 很 容易 发 现 ，anchors 的 生成 仅仅 借助 Numpy 
便 完 成 了 ， 这 样 做 十 分 有 利于 代码 迁移 到 Pytorch、TensorFlow 等 支持 Numpy 作为 输入 的 框架 。 
下 面 仅 仅 考 虑 MXNet， 其 他 框架 以 后 再 讨论 。 下 面 先 看 看 MultiBox 的 设计 对 于 使 用 MXNet 
进行 后 续 的 开发 有 什么 好 处 吧 ! 
由 于 base-net〈 基 网 络 ) 的 结构 一 经 确定 便 是 是 固定 的 ， 针 对 不 同 尺 寸 的 图 片 ， 如 果 每 次 
生成 anchors 都 要 重新 调用 Agenerate_anchors0 一 次 ， 那 么 将 会 产生 很 多 的 不 必要 的 元 余 计 算 ， 
gluoncy 提供 了 一 种 十 分 不 错 的 思路 : 先生 成 base_anchors， 然 后 选择 一 个 比较 大 的 尺度 
alloc size 《比如 128 x128) 用 来 生成 锚 框 的 初 选 模板 ; 接着 把 真正 的 特征 图 传 入 到 
RPNAnchorGenerator 并 通过 前 向 传播 计算 得 到 特征 图 的 锚 框 。 有 具体 操作 细节 见 如 下 代码 : 


class RPNAnchorGenerator(gluon.HybridqBlock): 
LE 生 成 RPN 的 锚 框 
人 参 数 
Stride : int 
特征 图 相对 于 原 图 的 滑动 步 长 ， 或 是 说 是 特征 图 上 单个 像素 点 的 感受 野 。 
base Size : int 
reference anchor box 的 宽 或 者 同 
ratios iterable of float 
anchor boxes 的 aspect ratios (高 宽 比 ) 。 我 们 期 望 它 是 tuple 或 者 ist 
Scales iterable of float 
销 框 相 对 于 reference anchor boxes 的 尺 度 


采 用 如 下 有形 式 计 算 销 框 的 高 和 宽 : 


width_{ancho 中 


math :: 


=  ， Size {basej Ntimes scale ximes \sqrt{ 1 / ratio} 

height_{fanchor} 三 width_{ancho 中 \times ratio 

alloc_Ssize tuple of int 
预 设 销 框 的 尺寸 为 (H  W) ， 通 常用 来 生成 比较 大 的 特征 图 (如 128x128) 。 


在 推断 的 后 期 , 我 们 可 以 有 可 变 的 输入 大 小 , 在 这 个 时 候 ， 
裁剪 出 对 应 的 ， anchors 以便 我 们 可 以 避免 在 


我 们 可 以 从 这 个 大 的 anchor map 中 直接 
每 次 输入 都 要 重新 生成 锚 点 


o 


def __init (self， alloc_size， base _Ssize， ratios， Scales， “kwargs): 
Super().，_init _〈““kwargs) 
# 生成 锚 框 初 选 模板 ， 之 后 通过 切片 获取 特征 图 的 真正 锚 框 
anchors 三 MultiBox(base _size， ratios， Scales)，generate_anchors( 
base_Ssize， alloc_size) 
self.anchors 三 self.params.get_constant(anchor_， anchors) 
# pylint: disable=arguments-differ 
def hybrid_ forward(self， F， X， anchors): 
"”"Slice anchors given the input image shape. 
Inputs: 
- 人 input tensor with (1 X C X H X W) Shape-. 
Outputs: 
- “out”: output anchor with (1|，N，4) shape. N_is the number of anchors. 
a 三 F.slice _ like(anchors， X 汉 0， axeSs=(2， 3)) 
return areshape((1, -1, 4)) 

上 面 的 RPNAnchorGenerator 直接 改写 自 gluoncv。 看 看 RPNAnchorGenerator 的 魅力 所 在 : 

base size = 2**4 # 特 征 的 每 个 像素 的 感受 野 大 小 

scales = [8 16， 32] # 锚 框 相 对 于 reference box 的 尺度 

ratios = [05，1 2 # reference box 与 锚 框 的 高 宽 的 比率 (aspect ratios ) 

stride = base_size # 在 原 上 滑动 的 步 长 

alloc size = (128， 128) # 一 个 比较 大 的 特征 的 锁 框 生成 模板 

## 调 用 RPNAnchorGenerator 生 成 anchors 

A 三 RPNAnchorGenerator(alloc_size， base_ size， ratios， Scales) 

Ainitialize() 

A(F) # 直接 传 入 特征 图 F， 获 取 F 的 anchors 

输出 结果 : 

[[ -84. -38. 99. 53.] 
[-176. -84. 191. 99.] 
[-360. -176. 375. 191.] 
[ 748. 704. 835. 879.] 
[ 704. 616. 879. 967.] 
[ 616. 440. 967. 1143.]]] 

<NDArray 1x22500x4 @cpu(0)> 

ny 如 果 我 们 更 改 特征 图 的 尺寸 : 

X nd.zeros((1， 二 7 45)) 

Al(x).shape 

输 出 结果 : 


(1 30375, 4 


这 里 30375 = 75 x 45 x 9 也 符合 我 们 的 预期 。 至 此 ， 我 们 完成 了 将 特征 


原 图 生成 锚 框 的 工作 ! 


图 上 的 所 有 锚 点 


12.2 平移 不 变性 的 锚 点 


反观 上 述 的 编程 实现 ， 很 容易 便 可 理解 论文 提 到 的 错 点 的 平移 不 变性 。 无 论 是 锚 点 的 生成 


还 是 锚 框 的 生成 都 是 基于 base_reference box 进行 平移 和 


卷 积 运算 〈 亦 可 看 作 是 一 种 线性 变换 ) 


的 。 为 了 叙述 方便 下 文 将 RPNAnchorGenerator 〈 被 放置 在 app/detection/anchor.py) 生成 的 
anchor boxes 由 corner 〈 记 作 A 坐标 形式 : (xzmin,ymin,xmax,ymax)) 转换 为 center〈 形 式 为 : 


的 锚 框 记 作 B。 


(xctryctw,bD) 后 


其 中 (xmin,ymin),(xmax,ymax) 分 别 表 示 锁 框 的 最 小 值 与 最 大 值 坐 标 ; (xctryct 表 示 锚 框 的 


中 心 坐标 ，w,h 表示 锚 框 的 宽 和 高 。 且 记 a = (xuywwauha)eB， 即 使 用 下 标 a 来 标识 锚 框 。A 


与 B 是 锚 框 的 两 种 不 同 的 表示 形式 。 
在 gluoncv.nn.bbox 中 提供 
行 编 程 。 先 载 入 环境 : 


了 将 A 转 换 为 B 的 模块 : BBoxCornerToCenter。 下 面 便 利用 


~ 


cd ../app/ 

接着 载 入 本 小 节 所 需 的 包 : 

from mxnet import init， gluon， autograd 
from mxnet.gluon import nn 
from gluoncv.nn.bbox import BBoxCornerTocCenter 
# 自 定 光 包 
from detection.bbox import MuHiBox 


from detection.anchor import RPNAnchorGenerator 


为 了 更 加 容易 理解 A 与 B 的 处 理 过 程 ， 
class 
def __init (sef， channels， stride， base size， ratios， 
Super().，_init _〈“*kwargs) 
weight_initializer 三 
with 
self.anchor_generator = 
stride， base_Ssize， ratios， 
anchor_depth 三 
## Conv1 的 
Self.conv1 = 
self.conv1.add(nn.Conv2D(channels， 二 


weight_initializer=weight_initializem) 
self.conv1.add(nn.Activation(relu')) 


# Score 的 

# USe sigmoid instead of Softmax， 

self.score 三 nn.Conv2D(anchor_depth， 
weight_initializer=weight_initializen 

## loc 的 

Self.Iloc 三 nn.Conv2D(anchor_depth 

weight_initializer=weight_initializen 
# 具 体 的 操 


下 面 先 自 创 一 个 类 (之 后 会 抛弃 ): 


RPNProposal(nn.HybridBlock): 


Scales， alloc_size， “kwargs): 
init.Normal(0.01) 
self.name_scope(): 
RPNAnchorGenerator( 

Scales， alloc_size) 
selfanchor_ generator.num_depth 
创 建 
nn.HybridSequential() 

人 导 由 

创 建 

reduce channel numbers 
1， 让 0， 

创 建 

4， 1 ， 钻 0， 

作 如 下 


channels 三 256 
base size = 2**4 # 特 征 的 每 个 像素 的 感受 野 大 小 
scales = [8 16，32] # 锚 框 相 对 于 reference box 的 尺度 
ratios = [0.5，1，2] # reference box 与 锚 框 的 高 宽 的 比率 (aspect ratios ) 
stride = base_size # 在 原 图 上 滑动 的 步 长 
alloc size = (128， 128) # 一 个 比较 大 的 特征 的 销 框 生成 模板 
alloc size = (128， 128) # 一 个 比较 大 的 特征 的 锚 框 生成 模板 
Self 三 RPNProposal(channels， stride， base _ size， ratios， Scales， alloc_size) 


Self.initialize() 


下 面 便 可 以 看 看 如 何 将 A 转 换 为 B: 


img， label = loader[0] # 载 入 图片 和 标注 信息 
img = cv2.resizelimg， (800， 800)) # resize 为 (800 800) 
imgs = nd.array(getX(img)) # 转 换 为 MXNet 的 输 入 形 式 
xs = features(imgs) # 获取 特征 图 张 量 
F 三 nd 
A = self.anchor_ generator(xs) # (xmin,ymin,xmax,ymax) 形式 的 锚 框 
box_ to_center BBoxCornerTocCenter() 


B = box to_center(A) “# (xy,w,h) 形式 的 锚 框 


12.2.1 边 青 框 回 归 


AN31 


的 
框 的 


base_size 的 reference box 的 作用 。 


手动 设计 的 锚 框 B 并 不 能 很 好 的 满足 后 续 的 Fast R-CNN 的 检测 工作 ， 还 需要 借助 论文 介 
3 个 卷 积 层 : conv1、gscore、loc。 对 于 论文 中 的 3 x 3 的 卷 积 核 convl 我 的 理解 是 模拟 锚 


生成 过 程 : 通过 不 改变 原 图 斥 十 的 卷 积 运算 达到 降 维 的 目标 ， 同 时 有 着 在 原 图 滑动 尺寸 为 


换言之 ，convl 的 作用 是 模拟 生成 锚 点 。 假 设 通过 RPN 生成 的 边界 框 bbox 记 为 G = 


{p: Gywh)}， 利 用 1 x 1 卷 积 核 loc 预测 p 相 对 于 每 个 像素 点 〈 即 销 点 ) 所 生成 的 k 个 锚 框 的 中 


心 坐 


ak 司 . 
肯 下 


框 A 
论文 


标 与 高 宽 的 偏 移 量 ， 利 用 1 x 1 卷 积 核 score 判别 锚 框 是 目标 〈objectness, foreground) 还 是 
(background) 。 

记 真 实 的 边界 框 集合 为 6* = fp (Gy wh 。 其 中 ， 人 yx5y 汪 分 别 代 表 预 测 边界 
真实 边界 框 的 中 心 坐 标 ;， (wh ，(w5 ph) 分 别 代 表 预 测 边 界 框 、 真 实 边界 框 的 的 宽 与 高 。 


在 Training RPNs 中 提 到 ， 在 训练 阶段 conv1、loc、score 使 用 均值 为 0， 标 准 差 为 0.01 的 高 
斯 分 布 来 随机 初始 化 。 接 着 ， 看 看 如 何 使 用 conv1、loc、score: 

X 三 self.conv1(xs) 

# score 的 输 出 

raw _rpn_Sscores 三 self.score(X).transpose(axes=(0， 2， 中 1)).reshape((0， -1,1)) 

rpn_scores =  F.sigmoid(F.stop_gradient(raw rpn_scores)) # 转换 为 概率 形式 

# loc 的 输 出 


rpn_box_pred = self.loc(X).transpose(axes=(0, 2, 3, 1)).reshape((0, -1, 4)) 
卷 积 核 loc 的 作用 是 用 来 学 习 偏 移 量 的， 在 论文 中 给 出 了 公式 12.9: 


wa 几 
0 六 一 和 
信人 

的 wa 几 


上 ( 丈 12.9) 
=1ogq) 妃 三 108() 


米 米 


W 2 由 
= logGr) 六 = log( 六 ) 
CQ QL 


这 样 可 以 很 好 的 消除 图 像 太 寸 的 不 同 带 来 的 影响 。 为 了 使 得 修正 后 的 锚 框 G 有 具备 与 真实 
边界 框 G* 有 相同 的 均值 和 标准 差 ， 还 需要 设 定 : G = (axw ay aow ah)h = (bwhyhwb) 表示 G 
的 (x yw, 对 应 的 标准 差 与 均值 。 故 而 ， 为 了 让 预测 的 边界 框 的 偏 移 量 的 分 布 更 加 均匀 还 需 
要 将 坐标 转换 一 下 ， 如 式 12.10 所 示 。 


生生 
二 WwW HLx 
多 av 
一 JJ 
过 ha 人 
Er 
总 ( 式 12.10) 
logG) 一 Anwv 
0 
W 
忆 
log() 一 届 
太 二 


Om 


对 于 G* 也 是 一 样 的 操作 。“〔〈 略 去 ) 一 般 地 ，6 = (0.10.10.2,0.2), 由 = (0,0,0,0)。 
由 于 loc 的 输出 便 是 {(tutywtwta)}j， 下 面 需要 反 推 g 包 wh)， 如 式 12.11 所 示 。 
X = (tax 十 jx)Wwa 十 Xa 
y = (tyay 十 Hz)jho 十 加 
WwW = waetwcw+Huw 

凡 一 刀 ，e tcp 


( 丈 12.11) 


通 稼 情况 下 ，A 形 式 的 边界 框 转换 为 B 形 式 的 边界 框 被 称 为 编码 (encode) ， 反 之 ， 则 称 为 
解码 〈decode) 。 在 gluoncv.nn.coder 中 的 NormalizedBoxCenterDecoder 类 实现 了 上 述 的 转换 过 
程 ， 同 时 也 完成 了 G 解 码 工作 。 


from gluoncv.nn.coder import NormalizedBoxCenterDecoder 
stds 三 (0.1， 0.1， 0.2， 0.2) 
means 三 (0.， 0.， 0,， 0.) 
box_decoder NormalizedBoxCenterDecoder(stds， means) 


roi = box_decoder(rpn_box | B) # 解码 后 的 G 


12.2.2 裁 勇 预 测 边 珊 框 超出 原 图 边 珊 的 边 青 


为 了 保持 一 致 性 ， 需 要 重 写 getX: 

def getX(img): 
# 将 img (h， w， 3) 转 换 为 (1， 3， h， W) 
img 国 img.transpose((2， 0， 1)) 


return np.expand dims(img, 0) 


考虑 到 RPN 的 输入 可 以 是 批量 数据 : 
imgs = [] 
labels = [ 
for img， label in loader: 
img = cv2.resizelimg， (600， 800)) # resize 宽 高 为 (600 ， 800) 
imgs.append(getX(img)) 
labels.append(label) 
imgs = nd.array(np.concatenate(imgs)) ## 一 个 批量 的 图 片 
labels = nd.array(np.stack(labels)) # 一 个 批量 的 标注 信息 
这 样 便 有 : 
from gluoncv.nn.coder import NormalizedBoxCenterDecoder 
from gluoncv.nn.bbox import BBoxCornerTocCenter 
stds 三 (0.1， 0.1， 0.2， 0.2) 
means 三 (0.， 0.， 0,， 0.) 
fs = features(imgs) # 获取 特 征 张 ” 量 
F 一 nd 
A = selfanchor generator(fs) # (xmin,ymin,xmax,ymax) 形式 的 锚 框 
box_to_center 三 BBoxCornerTocCenter() 
B = boxto center(A) # (xywh) 形 式 的 锚 ， 框 
X = self.conv1(fs) # conv1 卷 职 
raw_rpn_scores = self.score(x).transpose(axes=(0，2, 3, 1)).reshape((0，-1,1)) # 激活 之 前 的 score 
rpn_scores =  F.sigmoid(F.stop_gradient(raw _rpn_scores)) # 激活 后 的 ， score 
rpn_box_pred = self.loc(X).transpose(axes=(0，2，3，1)).reshape((0，-1，4)) # loc 预测 偏 移 量 
(tx,tytw,yh) 
box_decoder 三 NormalizedBoxCenterDecoder(stds， means) 
roi = box_decoder(rpn_box_pred B) # 解 码 后 的 G 


print(roi.shape) 


此 时 ， 便 有 两 张 图 片 的 预测 G: 

(2, 16650, 4) 

因为 此 时 生成 的 Rol 有 许多 超出 边界 的 框 ， 所 以 ， 需 要 进行 裁减 操作 。 先 裁剪 掉 所 有 小 于 
0 的 边界 : 


x=F.maximum(roi, 0.0) 


nd.maximum(x) 的 作用 是 max{f0, 对 。 接 下 来 裁剪 掉 大 于 原 图 的 边界 的 边界 : 


Shape 三 F.shape_array(imgs) ## imgs 的 Shape 
Size =  ， shape.slice_ axis(axis=0， begin=2， end=None) # imgs 的 尺寸 
window 三 Size.expand dims(0O) 
window 
答 出 结果 : 
[[800 600]] 


<NDArray 1x2 @cpu(0)> 
此 时 是 (高 , 宽 ) 的 形式 ， 而 锚 框 的 是 以 ( 宽 , 高 ) 的 形式 生成 的 ， 故 而 还 需要 : 


F.reverse(window, axis=1) 


[[600 800]] 
<NDArray 1x2 @cpu(0)> 


因而 ， 下 面 的 m 可 以 用 来 判断 是 否 超出 边界 : 


m 三 Fiile(F.reverse(window， axis=1)， reps=(2,)).reshape((0， 
m 
结果 : 

[[[600 800 600 


<NDArray 1x1x4 COcpu(0)> 

接着 ， 便 可 以 获取 裁剪 之 后 的 Rol: 

rol= F.broadcast_ minimum(x, F.cast(m, dtype='float32)) 

整个 裁剪 工作 可 以 通过 如 下 操作 简单 实现 : 

from gluoncv.nn.bbox import 


clipper 
roi = clipper(roj imgs) ## 埠 荔 幼 边 剧 jy 边 需 


12.2.3 移 除 小 于 min_size 的 边界 框 


相 加 


移 除 小 于 min_size 的 边界 框 进一步 筛选 边界 框 : 


-| 


min_size = 5 ## 最 小 锚 框 
xmin， ymin， xmax， ymax = roi.split(axis=-{1， num_outputs=4) 
width = xmax - xmin ## 锚 框 宽 

height = ymax - ymin ##  # 锚 框 高 


invalid = (width < min_size) + (height < min_size)# 所 有 小 于 min_size 的 高 宽 


便 可 筛选 出 同时 不 满足 条 件 的 对 象 ; 

cond 三 

cond.T 

结果 : 

[[1. 0. 0. 0. 站 0. 起 发 


<NDArray 1x10 cpu(0)> 
可 以 看 出 有 2 存在 ， 代 表 着 两 个 条 件 都 满足 ， 我 们 可 以 做 筛选 如 下 : 


F.where(cond, F.ones like(cond)* -1, rpn_scores[0,:10]).T 


结果 : 
[[-1. 0.999997 0.0511509 “0.9994136 -1 . 0.00826993 -1. 
<NDArray 1x10 cpu(0)> 


Score =  F.wherelinvalid， F.ones _ like(invalidj) “ -1， rpn_scores) 
invalid 三 F.repeat(invalid， axis=-1， 
roi = F.where(invalid, F.ones_like(invalid)* -1, roi) # 筛选 Rol 


由 于 张 量 的 < 运算 有 一 个 特性 ; 满足 条 件 的 设置 为 1， 否则 为 0。 这样 一 来 两 个 这 样 的 运 介 


800]] 


BBoxClipTolmage 
BBoxcClipTolmage() 


的 斥 十 

# 拆 分 坐标 
度 的 集 全 
度 的 集 合 


invalid[0,:10] 


0. 2] 


-0.99783903 -1] 


由 此 可 以 筛选 出 所 有 不 满足 条 件 的 对 象 。 更 进一步 ， 得 选 出 所 有 不 满足 条 件 的 对 象 : 


# 盘 选 score 
repeats=4) 


12.3 NMS9 (Non-maxlimum Suppresslon ) 


先 总 结 RPN 的 前 期 工作 中 Proposal 的 生成 阶段 : 
(1) 利用 base_net 获 取 原 图 ! 对 应 的 特征 图 X; 
62) 依据 base_net 的 网 络 结构 计算 特征 图 的 感受 野 大 小 为 base_size; 


T 


63) 依据 不 同 的 scale 和 aspect tatio 通过 MultiBox 计算 特征 图 X 在 (0,0) 位 置 的 销 点 对 应 


的 k 个 锚 框 base_anchors; 


的 锚 框 A; 


开 


(4) 通过 RPNAnchorGenerator 将 X 映 射 


原 图 并 生成 corner 格式 (xmin,ymin,xmax,ymax) 


(5) 将 锚 框 A 转 换 为 center 格式 ( 儿 Y wh， 记 作 B; 

《6) X 通 过 卷 积 convl 获得 模拟 锚 点 ， 亦 称 之 为 Tpn_features; 
《7) 通过 卷 积 层 score 获取 rpn_features 的 得 分 TIpn_score; 
(8) 与 7 并 行 的 通过 卷 积 层 loc 获取 rpn_features 的 边界 杠 
《9) 依据 rpn_box_pred 修正 锚 框 B 并 将 其 解码 为 G; 

《10) 裁剪 掉 G 的 超出 原 图 尺寸 的 边界 ， 并 移 除 小 于 min_size 的 边界 框 。 

虽然 上 面 的 步骤 移 除 了 许多 无 效 的 边界 并 裁剪 掉 超 出 原 图 尺寸 的 边界 ， 但 是 ， 可 以 想象 到 


开 


归 的 偏 移 量 rpn_box_pred; 


高 度 重 琶 的 边界 框 ， 此 时 若 将 G 当 作 Region Proposal 送 入 PoI Pooling 层 将 


给 计算 机 带 来 十 分 庞大 的 负载 ， 并 且 G 中 的 背景 框 远 远 多 于 目标 极为 不 利于 模型 的 训练 。 


论文 中 给 出 了 NMS 的 策略 来 解决 上 述 难 题 。 根 据 我 们 预测 的 rpn_score， 对 G 进行 非 极 大 


值 抑制 操作 CNMS ) ， 去 除 得 分 较 低 以 及 重复 区 域 的 Ror。 在 MXNet 提供 了 
nd.contrib.box_nms 来 实现 此 次 目标 ; 


1 


nms _thresh 三 0.7 
n train_pre_ nms = 12000 # 训练 时 nms 之 前 的 bbox 的 数目 
n_train_post nms = 2000 # 训练 时 nms 之 后 的 bbox 的 数目 
n_test_pre_ nms = 6000 # 测试 时 nms 之 前 的 bbox 的 数目 
n_test _post nms = 300 # 测试 时 nms 之 后 的 bbox 的 数目 
pre =  F.concat(scores， rois， dim=-1) 族人 合 汪汪 省 score 与 roi 
# 非 极 大 值 抑 制 
tmp 三 F.contrib.box_nms(pre， overlap_thresh=nms thresh， topk=n_train_pre_nms， 

Coord start=1， Score_index=0， id_index=-1， force_suppress=True) 
# slice post nms number of boxes 
result 三 F.slice_axis(tmp， axiS=1， begin=0， end=n train _post nms) 
rpn_scores 三 F.slice_axis(result， axis=-1， begin=0， end=1) 


rpn_bbox = F.slice_axis(result, axis=-1, begin=1, end=None) 

上 述 的 封装 比较 彻底 ， 无 法 获取 具体 的 实现 ， 并 且 也 不 利于 我 们 理解 NMS 的 具体 实现 原 
为 了 更 好 的 理解 NMS， 自 己 重新 实现 0 是 十 分 有 必要 的 。 

将 Scores 按照 从 大 到 小 进行 排序 ， 并 返回 其 索引 : 

Scores = Scores.flatten() ## 去 除 无 效 维 度 
# 将 scores 按照 从 大 到 小 进行 排序 ， 并 返回 其 索引 
orders = Scores.argsort()[::- 旭 

由 于 loc 生成 的 锚 框 实在 是 太 多 了 ， 为 此 ， 仅 仅 考虑 得 分 前 n_train_pre_nms 的 锚 框 : 

keep = orders[:,:n_train_pre_nms] 


下 面 先 考虑 一 张 图 片 ， 之 后 再 考虑 多 张 图 片 一 起 训练 的 情况 : 


order = keep[0] # 第 一 张 图 上 片 的 得 分 降序 索 引 
score ”= scores[0][order] # 第 一 张 图 片 的 得 分 预测 降序 排 列 
roi = rois[0l[orden # 第 一 张 图 片 的 边 胃 框 预测 按 得 分 降序 排列 


label = labels[0] “# 真实 边界 框 

虽然 Box 支持 nd 作为 输入 ， 但 是 计算 多 个 IoU 效率 并 不 高 : 
%ocetimeit 

GT = [Box(cornen for comner in label # 真 实 
G = [Box(cornen for corner in roi] # 预 测 


ious = nd.zeros((len(G)， Ilen(GT))) # 初 始 化 loU 的 计算 


for i， A in enumerate(G): 
for 目 B in enumerate(GT): 
iou 三 A.IoU(B) 
ious[i, j] = iou 
输出 计时 结果 : 


1min 10s +6.08 s perloop (mean +t std. dev. of 7 runs, 1 loop each) 
先 转换 为 Numpy 再 计算 IoU 效率 会 更 高 : 


9%o%ptimeit 


GT = [Box(cornen for cormner in labelasnumpy()] # 真实 边 开 框 实例 化 
G = [Box(cornern for corner in roiasnumpy()] # 预测 边 贯 框 实 例 化 
ious ”= ， nd.zeros((len(G)， Ilen(GT))) ## 初 始 化 loU 的 计算 
for 四 A in enumerate(G): 
for j， B in enumerate(GT): 
iouU = AloU(B) 
ious[i, j] = iou 
输出 计时 结果 : 
6.88 s+410 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 
比 使 用 nd 快 了 近 10 倍 ! 但 是 如 果 全 部 使 用 Numpy， 会 有 什么 变化 ? 
%cetimeit 
GT = [Box(cornen for cormner in labelasnumpy()] # 真实 边 开 框 实 例 化 
G = [Box(cornern for corner in roiasnumpy()] # 预测 边 园 框 实 例 化 
ious = np.zeros((len(G)， Ilen(GT))) ## 初 始 化 loU 的 计算 
for i， A in enumerate(G): 
for 此 B in enumerate(GT): 
iou = AlOU(B) 
ious[i, j] = iou 
输出 计时 结果 : 


796 ms+ 上 30.5 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 


速度 又 提升 了 10 倍 左右 ! 为 此 ， 仅 仅 考 虑 使 用 Numpy 来 计算 。 将 其 封装 进 group_ious 函 


def group_ious(pred_bbox， true_bbox): 
## 让 全 pred_bbox 与 true_bbox 的 loU 组 合 
GT = [Box(cornern) for corner in true_bbox] # 真实 边界 框 实例 化 
G = [Box(cornen for corner in pred bbox] # 预测 边 家 框 实 例 化 
ious = np.zeros((len(G)， len(GT))) ## 初 始 化 IloU 的 计算 
for | A in enumerate(G): 
for j， B in enumerate(GT): 
iouU = AloU(B) 
ious[i， j] 三 iou 
return ious 


不 过 ， 还 有 更 加 友好 的 计算 ious 的 方法 ， 将 会 在 下 节 介绍 ! 


12.3.1 重 构 代码 


四 片 ， 下 面 先 载 入 设置 RPN 网 络 的 输入 以 及 部 分 输出 ; 


前 面 的 代码 有 点 混乱 ， 为 了 后 续 开 发 的 便利 ， 我 们 先 重 新 整理 一 下 代码 。 先 仅仅 考虑 一 张 


## PRN 前 期 的 设 定 
channels = 256 # conyv1 的 输 出 通 道 数 
base size = 2**4 # 特 征 的 每 个 像素 的 感受 野 大 小 
scales = [8 16，32] # 锚 框 相 对 于 reference box 的 尺度 
ratios = [05，1， 2] # reference box 与 锚 框 的 高 宽 的 比率 (aspect ratios ) 
stride = base_size # 在 原 上 滑 动 的 步 长 
alloc_ size = (128， 128) # 一 个 比较 大 的 特征 的 锚 框 生成 模板 
# 用 来 畏 助 理 解 RPN 的 类 
Self 三 RPNProposal(channels， Stride， base _Ssize， ratios， Scales， alloc_size) 
self.initialize() # 初始 化 卷 积 层 conv1， loc， Score 
stds 三 (0.1， 0.1， 0.2， 0.2) ## 偏 移 量 的 标 准 甘 
means = (0.， 0.， 0,， 0.) # 偏 移 量 的 均 值 
## 锚 框 的 编 码 
box to_center = BBoxCornerToCenter()  # 将 (xminymin,xmaxymax) 转换 为 (xyw'h) 
# 将 销 框 通过 偏 移 量 进 行 修 正 ， 并 解码 为 (xmin,ymin,xmax,ymax) 
box_decoder 三 NormalizedBoxCenterDecoder(stds， means) 
clipper =  BBoxClipTolmage() # 裁剪 超出 原 尺寸 的 边 吸 
## 获 取 COCO 一 片 用 来 做 实 验 
img， label = loader[0] ## 获 取 二 张 片 
img = cv2.resizel(img， (800， 800)) # resize 为 (800， 800) 
imgs = nd.array(getX(img)) # 转换 为 MXNet 的 输入 形式 
## 提 取 最 后 三 层 卷 积 的 特 征 
net =  ， vgg16(pretrained=True) # 载 入 基 网 络 的 权重 
features ”= netfeatures[:29] # 卷 积 层 特征 提 取 咒 
fs = features(imgs) # 获 取 特 征 张 量 
A = self.anchor_generator(fs) # 生成 (xminyminxmaxymax) 形式 的 锚 框 
B = box to center(A) # 编 码 为 (xywh) 有 形式 的 锚 框 
X = self.conv1(fs) # conv1 卷 让 
# sigmoid 激 活 之 前 的 Score 
raw rpn scores = self.score(x).transpose(axes=(0， “2， 3 1)).reshape((0， -1， 1)) 
rpn_scores = nd.sigmoid(nd.stop_gradient(raw rpn_scores)) # 激活 后 的 score 
# loc 预 测 偏 移 量 (tx,tytw,yh) 
rpn_box_pred 三 self.loc(X).transpose(axes=(0， 好 针 1)).reshape((0， -1]， 4)) 
## 修 正 锚 框 的 此 标 
roi = box decoder(rpn_ box_pred， B) # 解码 后 的 预测 边 愤 框 G (Rols ) 
print(roi.shape) # 裁 剪 到 前 


roi = clipper(roi, imgs) # 裁剪 超出 原 图 尺寸 的 边界 
虽然 ，roi 已 经 裁剪 抒 超 出 原 图 尺寸 的 边界 ， 但 是 还 有 一 部 分 边界 框 实在 有 点 儿 小 ， 不 利 


于 后 续 的 训练 ， 故 而 需要 丢弃 。 丢 弃 的 方法 是 将 其 边界 框 与 得 分 均 设置 为 -1: 


def Size_control(F， min_size， rois， Scores): 
## 拆 分 坐 标 
xmin， ymin， Xmax， ymax = rois.split(axis=-1， num_outputs=4) 
width = xmax - xmin # 锚 框 宽 度 的 集 合 
height = yymaxz -  ymin # # 销 框 高 度 的 集 合 
# 获 取 所 有 小 于 min_size 的 襄 宽 
invalid = (width < minsizej + (height < minsizelj # 同时 满足 和 条件 
# 将 不 满足 条 件 的 锚 框 的 坐标 与 得 分 均 设置 为 = 


Scores 三 F.where(invalid， F.ones_likel(invaligd) -1 ， Scores) 
invalid 三 F.repeat(invalid， axis=-1， repeats=4) 


rois 三 F.where(invalid， F.ones_likel(invaligd) -1]， rois) 
return rois， Scores 
min_size = 16 ## 最 小 锚 框 的 尺 寸 
pre_nms = 12000 ## nms 之 前 的 bbox 的 数 有 目 
post_nms = 2000 # ms 之 后 的 bbox 的 数 目 
rois, scores = Size_controlltnd, min_size, roi, rpn_scores) 
为 了 可 以 让 Box 一 次 计算 多 个 bbox 的 IoU， 下 面 需 要 重新 改写 Box 
class BoxTransform(Box): 
一 组 bbox 的 运 算 
def __init_ (self， 后 : corners): 
F 可 以 是 mxnet.nd， numpy， torch.tensor 
Super(0._init_(corners) 
Self.corner 三 corners.T 
Self.F 三 F 
def _ and _ (self， othen): 
严 
运 算 符 8 交 集 运 算 
xmin 三 self.F.maximum(self.corner[0].expand_dims( 
0)， other.corner[0].expand _ dims(1)) # xmin 中 的 大 者 
Xmax =- self.F.minimum(self.corner[2].expand_dims( 
0)， other.corner[2].expand_ dims(1)) # Xmax 中 的 小 者 
ymin 三 self.F.maximum(self.corner[1].expand_dims( 
0)， other.corner[1].expand_dims(1)) # ymin 中 的 大 者 
ymax 三 self.F.minimum(self.corner[3].expand_dims( 
0)， other.corner[3].expand dims(1)) # ymax 中 的 小 者 
W 三 Xmax - xmin 
h 三 ymax = ymin 
cond 三 (w < 0) 十 (h < 0) 
| 一 self.F.where(cond， nd.zeros like(cond)， W h) 
return | 
def _ or __(self， othenm): 
[ 
运 算 符 下 并 集 运 到 
| 三 Self & other 
U 三 self.area.expand dims(0) 十 other.area.expand dims(1) - | 
return self.F.where(U < 0， self.F.zeros_like()， U) 
def loU(self， othen): 
交 并 比 
| 三 Self & other 
U 三 Self | other 


return self.F.where(U == 0, self.F.zeros like( 小 ,17 U) 


先 测 试 一 下 : 


7 
a 三 BoxTransform(nd， nd.array([[[0， 
b 三 BoxTransform(nd， 1+nd.array([[[0， 


cC=BoxTransform(nd, nd.array([[[-1, -1, -1, -1]]])) 


创建 了 两 个 简单 有 效 的 bbox 〈a, b) 和 一 个 无 效 的 bbox 〈c) ， 接 着 看 看 它们 的 运算 : 


5 aloU(D) 


0， 
0， 


15， 
15， 


15]]]) 
15]]]) 


[IT96]] <NDArray 1X1XxT @cpu(O)> [316.]] <NDArray 1X1xT @cpu(O)> II0.62025315]]] <NDArray 


1x1x1 @cpu(0)>) 
而 与 无 效 的 边界 框 的 计算 便 是 ; 


a&c,alc'a.loU(c) 

输出 结果 : 

人 

[[[0.] 

<NDArray 1x1x1 @cpu(0)>， 

[[257.]]] 

<NDArray 1x1x1 @cpu(0)>， 

[[[0.] 

<NDArray 1x1x1 cpu(0)>) 

如 果 把 无 效 的 边界 框 看 作 是 空 集 ， 则 上 面 的 运算 结果 便 符 合 常识 。 下 面 讨论 如 何 标记 训练 
集 ? 

COCO 的 bbox 是 Gy,w, 蔬 格式 的 ， 但 是 这 里 的 (x,y) 不 是 中 心 坐标 ， 而 是 左上 角 坐 标 。 为 
了 统一 ， 需 要 将 其 转换 为 (xmin,ymin,xmax,ymax) 格式 : 

labels = nd.array(label) # (xywh ， 其 中 (xy) 是 左上 角 坐 标 

cwh 三 (labels[:,2:4]-1) 0.5 

labels[:,2:4] = labels[:,:2] + cwh # 转换 为 (xmin,ymin,xmax,ymax) 

下 面 计 算 真 实 边界 框 与 预测 边界 框 的 ious: 

# 将 scores 按照 从 大 到 小 进行 排序 ， 并 返回 其 索引 

orders 三 Scores.reshape((0， -1)).argsort()[:， :Lpre_nms] 

Scores = scores[0][orders[0]] # 得 分 降 序 排 列 

rois = rois[0][orders[0]] # 按 得 分 降序 排列 rois 

# 预 测 边 页 框 

G 三 BoxTransform(nd， rois.expand dims(0)) 

# 真 实 边 珊 框 

GT 三 BoxTransform(nd， labels[:,:4].expand dims(0)) 

ious 三 G.IloU(GT).T # 计 算 全 部 的 iou 

ious.shape 

输出 结果 : 

(1, 12000, 6) 

可 以 看 出 ， 总 计 一 张 图 片 ， 预 测 边界 框 12000 个 ， 真 实 边 界 框 6 个 。 


12.3.2 标注 边 珊 框 


在 训练 阶段 NMS 直接 使 用 nd.contrib.box_nms 
构造 nms 的 计算 ， 和 暂时 没有 比较 好 的 思路 〈 还 不 如 直接 使 用 


便 可 以 实现 ， 直 接 使 有 


月 BoxTransform 来 
for 循环 来 的 简单 ， 虽 然 它 很 低 


效 ) 。 故 而 ， 和 暂时 先 将 BoxTransform 雪藏 ， 待 到 想到 比较 不 错 的 点 子 再 来 考虑 。 

编程 暂且 不 提 ， 这 里 主要 讲 讲 如 何 标注 训练 集 ” 上 面 利 用 BoxTransform 已 经 计算 出 矩阵 
ious。 下 面 就 以 此 为 基础 进行 NMS 操作 : 

(1) 找 出 ious 中 的 最 大 值 ， 并 定位 其 坐标 〈ious 中 元 素 的 索引 ) ， 记 作 i,j;， 即 将 ii 分 配 
给 ji ; 

《2) 删除 ii 行 所 有 元 素 ， 并 删除 j; 列 所 有 元 素 ， 此 时 记 ious 为 Xi ; 

(3) 找 出 Xi 中 的 最 大 值 ， 并 定位 其 坐标 〈ious 中 元 素 的 索引 ) ， 记 作 iz, jz， 即将 i 分 配给 


《4) 删除 iz 行 所 有 元 素 ， 并 删除 jz 列 所 有 元 素 ， 此 时 记 ious 为 X> ; 

《5) 不 断 重 复 上 述 操作 ， 直 至 删除 所 有 列 为 止 ; 

《6) 对 于 剩余 的 行 ， 通 过 阔 值 判断 是 否 为 销 框 分 配 真 实 边 界 框 。 

标注 训练 集 时 不 仅仅 需要 标注 边界 框 的 类 别 还 要 标注 其 相对 于 真实 边界 框 的 偏 移 量 。 

测试 集 的 标注 与 训练 集 不 同 ， 因 为 ， 此 时 没有 真实 边界 框 ， 所 以 以 当前 边界 框 的 得 分 最 大 
者 对 应 的 类 别 标签 来 标注 类 别 ， 接 着 计算 剩余 预测 框 与 其 的 IoU 并 移 除 与 其 相似 的 边界 框 。 不 
断 的 重复 这 种 操作 ， 直 至 无 法 移 除 边界 框 为 止 。 (MXNet 中 的 
contrib.ndarray.MultiBoxDetection 实现 该 操作 。 ) 

NMS 那 一 节 已 经 通过 RPN 提取 出 2000 左右 Region Proposal (gluoncv 通过 RPNProposal 
实现 ) ， 这 些 Region Proposal 作为 RoIs 当 作 Fast R-CNN 的 输入 。 


一 


12.4 RoIHead 


RPN 的 整个 流程 如 图 12.3 所 示 。 


修正 错 框 ， 
按 得 分 先 
出 12000 
错 框 
特征 图 NMS 去 除 NMS 之 后 
重 权 度 高 人 
的 错 框 ， 2000 个 氏 
得 分 较 低 RN 
背景 杠 


RPNAnchorGenerator 


图 12.3 RPN 的 流程 图 
RPN 去 除了 大 量 的 重复 锚 框 以 及 得 分 低 的 背景 区 域 最 后 得 到 2000 左右 RoIs 送 入 RoIHead 


再 一 次 调整 锚 框 的 标注 信息 。 虽 然 将 2000 个 RoIs 都 作为 RoIHead 的 输入 是 可 以 实现 的 ， 但 是 
这 样 做 会 造成 正 负 样 本 的 不 均衡 问题 ， 为 此 ， 论 文 提 出 均匀 采用 的 策略 : 随机 选择 256 个 锚 框 ， 
但 要 保证 正 负 样 本 均衡 〈gluoncyv 使 用 ProposalTargetCreator 实现 ) 。 


12.$ 本 章 小 结 


本 章 主要 介绍 了 一 些 Faster RCNN 的 关键 组 件 和 思想 ， 并 借助 gluoncy 的 源码 来 分 析 其 设 


第 13 章 目 制 一 个 集 数 据 与 AP| 于 一 身 的 项 目 


前 面 的 章节 我 们 已 经 知晓 了 如 何 使 用 GitHub 创建 属于 自己 的 项 目 ， 也 学 会 了 如 何 创建 属 


于 自己 的 API。 本 章 将 带 您 创建 一 个 集 数 据 与 API 于 一 身 的 项 目 ， 将 前 面 所 学 习 的 知识 做 一 个 
大 一 统 。 


13.1 构建 项 目的 骨 架 


已 
ANS 
Mt 
时 
局 
刺 
岂 


需要 分 别 创建 数据 存储 的 仓库 datasome 与 API 的 存储 仓库 loader。 下 面 详 
的 细节 。 


13.1.1 datasome 的 创建 细节 


由 于 datasome 存储 的 数据 ， 必 存在 很 大 大 文件 ， 故 此 我 们 使 用 Git LEFS 进行 管理 。 方 法 很 
简单 ， 首 先 ， 需 要 先 在 Github 上 创建 一 个 空 的 项 目 ， 接 着 ， 将 其 git clone 到 本 地 磁盘 ， 然 后 
进入 到 datasome 根 目 录 ， 运 行 如 下 命令 安装 LFS: 

$git lfs install 

需要 追踪 的 数据 可 能 是 HDF5，EXCEL，CSYV 等 ， 故 而 需要 设置 LFS 的 跟踪 类 型 并 提交 
到 仓库 。 

$git lfs track "*.h5" 


$git lfs track "XIsX" 


| 


$git fs track "*Xls" 
$gitlfs track "CSV" 
$gitlfs track "zip" 
$gitlfs track "rar 
$gitlfs track json" 


$gitlfs track mat" 
$gitadd .gitattriputes 
$git commit -m "添加 数据 的 跟踪 类 型 


$git push origin master 


13.1.2 loader 的 创建 细节 


本 章 重 构 前 面 章节 的 mnist 与 cifar 代码 放 入 loader 之 中 。 首 先 在 项 目 根 目录 创建 目录 
custom 以 及 空 文件 custom/_init .py， 然 后 创建 文件 custom/mnistpy， 并 写 入 如 下 内 容 : 


作者 : xinetzone 
时 间 : 2019/127/3 


import struct 
from pathlib import Path 
import numpy as np 
import gzip 
class MNIST: 
def _init_(self root namespace): 
"MNIST 与 FAsGION-MNIST 数据 解码 工具 
1 (MNIST handwritten digits dataset from http:/yann.lecun.cormyexdby/mnist) 下 载 后 放置 在 "mnist 
目录 
2. (A dataset of Zalando's article images consisting of fashion products, 


a drop-in replacement of the original MNIST dataset from 
https:V/github.comyzalandoresearch/fashion-mnist) 
数据 下 载 放 置 在 fashion-mnist 目录 
Each sampleis an image (in 2D NDArray) with shape (28, 28). 
参数 


root : 数据 根 目 录 ， 如 EVData/Zip/ 
namespace :mnist or fashion-mnist 


实例 属性 


train_data: 训练 数据 集 图 片 
train_label: 训练 数据 集 标签 名 称 
test data: 测试 数据 集 图 片 
test label: 测试 数据 集 标签 名 称 


root = Path(root) / namespace 
self_name2array(root) 


def name2array(self root): 


官方 网 站 是 以 `[offsetjl[typel[valuel[description] 的 格式 封装 数据 的 ， 
因而 我 们 使 用 `structunpack 


_train_data = root / train-images-idx3-ubyte.gz # 训练 数据 集 文件 名 
_train_label = root / train-labels-idx1-ubyte.gz # 训练 数据 集 的 标签 文件 名 
_test data = root / t10k-images-idx3-ubyte.gz”# 测试 数据 集 文件 名 
_test label = root / tI0k-labels-idx1-ubyte.gz # 测试 数据 集 的 标签 文件 名 
selftrain_data = selfget_data 人 (train_data) # 获得 训练 数据 集 图 片 
selftrain_label = selfget label(_train_label) # 获得 训练 数据 集 标 签名 称 
selftest data = self'get_datal(_test_data) # 获得 测试 数据 集 图 片 
selftest label = self,get_ label(_test label) # 获得 测试 数据 集 标 签名 称 
def get_data(self data): 

"获取 图 像 信息 ” 
With gzip.open(data，rb) as fin: 

shape = struct.unpack(C > fin.read(6))[] 

data = np.frombuffer(fin.read(, dtype=np.uint8) 
data = data.reshape(shape) 
return data 

def get label(self label): 

"获取 标签 信息 ” 
with gzip.open(label，rb) as fin: 

struct.unpack(>ll, fin.read(8)) # 参考 数据 集 的 网 站 ， 即 offset=8 

# 获得 数据 集 的 标签 

label = fin.read() 
label = np.frombuffer(llabel dtype=np.uint8).astype(np.int32) 

return label 


该 模块 交代 了 MNIST 与 FASHION-MNIST 数据 集 的 解析 方法 ， 只 需要 将 这 两 个 数 和 
载 后 分 别 创 建 目 录 mnist，fashion-mnist， 便 可 以 轻松 的 解析 这 两 个 数据 集 。 
同样 ， 我 们 可 以 改写 cifar 的 数据 集 处 理工 具 : 


也 


作者 : xinetzone 
时 间 : 2019/12/3 


import tarfile 
from pathlib import Path 
import pickle 
import time 
import numpy as np 
class Cifar 

def _init_(self root namespace): 

"CIFAR image classification dataset from https/www.cs.toronto.edu/~kriz/cifarhtml 


Each sampleis an image (in 3D NDArray) with shape (3, 32, 32). 
参数 


站 


集 下 


meta : 保存 了 类 别 信息 
root : str 数据 根 目录 
namespace : cifar-10' 或 “cifar-100， 


#super(0，init _(*args, xxkwds) 
#self，、dict = self 
selfroot = Path(root) 
# 解压 数据 集 到 root， 并 将 解析 后 的 数据 载 入 内 存 
self_load(namespace) 
def extractall(self namespace): 


“解压 tar 文件 并 返回 路 径 
参数 


tar_name: tar 文件 名 称 


tar_name = selfroot / ffnamespace}-python.targz 
With tarfile.open(ltar_name) as tar: 
tarextractall(selfroot) “# 解压 全 部 文件 
names = targetnames() # 获取 解压 后 的 文件 所 在 目录 
return names 
def decode(self path): 
“ 载 入 二 进 制 流 到 内 存 ” 
with open(path, 'rb'") as fp: # 打开 文件 
# 载 入 数据 到 内 存 
data = pickle.load(fp, encoding='bytes ') 
return data 
def load cifarl0(self names): 
"将 解析 后 的 cifar10 数据 载 入 内 存 " 
# 获取 数据 根 目录 
R = [Selfroot / 
name for name in names if (selfroot / namej.is_dir0][O] 
# 元 数据 信息 
meta = self_decodellist(R.glob(*.meta ))[O]) 
# 训练 集 信 息 
train = [self. decode(path) for path in R.glob(* batch_x)] 
# 测试 集 信 息 
test = [self_decode(path) for path in R.glob(xtest* )][O] 
return meta, train, test 
def load cifar100(self names): 


“将 解析 后 的 cifar100 数据 载 入 内 存 " 


# 获取 数据 根 目录 
R = [Selfroot / 
name for name in names if (selfroot / namej,is_dir0][0] 
# 元 数据 信息 
meta = self_decodellist(R.glob(xmetax))[O]) 
# 训练 集 信息 
train = [self. decode(path) for path in R.glob(*train*)][O] 
# 测试 集 信 息 
test = [self_decode(path) for path in R.glob(xtests)][O] 
return meta, train, test 
def load(self namespace): 
# 解压 数据 集 到 root， 并 返回 文件 列表 
names = self. extractall(namespace) 
inamespace == cifar-10' 
selfmeta, train, test = Self_|oad _cifar10(names) 
selftrainX = np.Concatenate( 
[x[b'data] forxintrain]).reshape(-1 3 32, 32) 
selftrainY = np.concatenate([x[b'labels]for xin train]) 
selftestX = np.array(test[b'data ]).reshape(-1 3, 32, 32) 


selftestY = np.array(test[b'labels]) 

elif namespace == cifar-100 
selfmeta, train, test = self load _cifar100(names) 
selftrainX = np.array(train[b'data ]).reshape(-1 3 32, 32) 
selftestX = np.array(test[b'data ]).reshape(-1 3, 32, 32) 
selftrain_fine_labels = np.array(train[bfine_labels]) 
selftrain_coarse_labels = np.array(train[b'coarse labels ]) 
selftest fine_labels = np.array(test[bfine_labels]) 
selftest_coarse_labels = np.array(test[b coarse labels]) 


并 将 其 保持 到 custom/cifar.py。 接 着 将 这 些 改动 提交 并 推送 到 Github 上 。 


13.2 创建 一 个 数据 与 API 的 统一 体 


利用 datasome 与 loader 创建 一 个 数据 与 API 的 统一 体 datasetsome 。 该 仓库 把 datasome 与 
loader 作为 Git 子 模块 进行 管理 ， 而 该 仓库 本 身 记 录 数 据 的 简介 与 API 的 使 用 说 明 。 


13.2.1 datasetsome 项 目 初 设 


首先 在 Github 创建 一 个 空 项 目 ， 取 名 为 datasetsome， 然 后 添加 LES 的 PDE 与 docx 文档 
的 管理 : 


$git Ifs install 

$gitlfs track "pdf 

$git lfs track "docx" 

$gitadd .gitattriputes 

$git commit -m "添加 数据 的 跟踪 类 型 
$git push origin master 


接着 ， 使 用 命令 git submodule add < 仓库 地 址 > < 本 寺 


也 路 径 > 添加 Git 子 模块 ， 其 中 < 本 寺 


径 > 是 可 选项 ， 默 认 情 况 下 ， 子 模块 会 在 当前 目录 下 


中 。 如 果 指 定 了 本 地 路 径 ， 则 会 把 子 项 目 放 在 指定 的 本 


根 目 录 添 加 子 模块 : 


$git submodule add https:Wgithup.comy/xinetzone/loader 
$git submodule add https:Wgithup.cormyVDataLoaderX/datasome 


$gitadd .gitmodules 
$git commit -m "添加 两 个 子 模块 


最 后 ， 需 要 修改 自述 文 要 README.md， 填 入 如 下 内 容 ， 


[LIGitHub 


也 路 


摆 ， 将 子 项 目 放 到 一 个 与 仓库 同名 的 目录 


也 路 径 下 。 为 此 ， 在 datasetsome 项 目 


issues](https:Wimg.shields.io/githuByissuesDataLoaderX/datasetsome)l(https:Wgithub.com/DataLoader 


X/datasetsomeyVissues) [LI[GitHub 


forks](httpsWimg.shields.io/githuby/forksDataLoaderX/datasetsome)](https:Wgithub.coryVDataLoaderX/ 


datasetsome/network) [L[GitHupb 


Stars]l(https:Wimg.shields.io/githubystarsDataLoaderX/datasetsome)l(https:Wgithub.coryVDataLoaderX/ 


datasetsomey/stargazers) [LI[GitHub 


license](httpsWimg.shields.io/githubylicense/DataLoaderxX/datasetsome)l(https:VWVgithub.comyVDataLoade 


rX/datasetsomey/blob/masteVLICENSE) 


[HitCountl(http:MWhits.dwyl.io/DataLoaderX/datasetsome.svg)](http:Whits.dwyl.io/DataLoaderX/datasets 


ome) ![GitHub repo size](httpsWimg.shields.io/githuby/repo-size/DataLoaderX/datasetsome) 
本 项 目 主要 用 于 记录 与 数据 处 理 相关 的 资源 ， 同 时 您 可 以 进入 [mybinder: 

datasetsomej(httpsmybinderorg/v2/gDataLoaderX/datasetsome/masten 进行 线 编辑 。 为 了 将 数据 
和 代码 以 及 文档 分 离 ， 本 项 目 将 一 些 数据 集 存 放 在 子 模块 
[datasomej(https://dataloaderx.github.io/datasomey/) 之 中 ， 而 将 代码 存放 在 子 模块 


[loadenj(https:/Wxinetzone.github.io/loader) 之 中 。 
## 数据 集 处 理 

COCO 数据 集 ](Coco/README.mdj) 

CASIA 脱 机 和 在 线 手写 汉字 库 ](casia/README.md) 
omniglot 数据 集 ](omnigloVREADME.md) 

待 办 事项 ]TODOSVREADME.md) 


该 内 容 用 于 介绍 项 目的 基本 情况 。 为 了 让 别人 更 
仓库 ， 即 继续 在 README.md 文件 写 下 如 下 内 容 : 
## 本 项 目的 使 用 说 明 


方便 的 使 


因为 本 项 目 包含 子 模块 ， 所 以 在 克隆 时 ， 您 可 以 选择 使 用 命令 : 


sh 


$git clone --recursive https/github.cormyDataLoaderX/datasetsome 


该 仓库 ， 还 要 介绍 如 何 使 用 


直接 下 载 项 目 并 更 新 仓库 中 的 每 一 个 子 模块 。 
如 果 您 不 想 在 克隆 仓库 时 下 载 子 模块 ， 您 只 需要 运行 下 面 的 命令 即 可 : 


$git clone httpsWdgithub.corVDataLoaderX/datasetsome 
待 您 将 项 目下 载 到 您 的 电脑 后 ， 输 入 命令 : 


$gitsubpmodule init 
$gitsupmodule update 


拉 取 子 模 的 更 新 。 


13.2.2 在 datasetsome 中 编写 loader 使 用 案例 


先 创 建 一 个 用 于 将 MNIST，Fashion MNIST，Cifar 10，Cifar 100 打包 为 HDFS 的 模块 
loadercustom/genX.py， 有 具体 内 容 如 下 : 


作者 : xinetzone 
时 间 : 2019/127/3 


import tables as tb 

import numpy as np 

from custom.cifar import Cifar 

from custom.mnist import MNIST 

class Buncht(dict): 

def _init _ (self root *args xx*kwargSs): 

"将 数据 MNIST，Fashion MNIST，Cifar 10，Cifar 100 打包 
为 HDF5 


root : 数据 的 根 目录 


Super(0.，jinit _(*args, xxkwargs) 
Self_ dict_ = self 
selfmnist = MNIST(root 'mnist) 
selffashion_mnist = MNIST(root fashion-mnist) 
selfcifar10 = Cifar(root cifar-10) 
selfcifar100 = Cifar(root， cifar-100) 
def change(self img): 
"将 数据 由 (num, channel, h, w) 转换 为 (num, h, w, channel)” 


return np.transposelimg, (0. 2 3 7) 
deftoHDF5(self save_path): 


"将 数据 打包 为 HDF5 格式 
参数 


save_path: 数据 保存 的 路 径 


filters = tb.FiltersCcomplevel=7 shuffle=False) 
With tb.open _file(f{fsave_pathXX.h5，w', filters=filters title='XinetW's dataset ) as h5: 
for name in sef 
h5.create_group( 人 name title=name) 
ifnamein [mnist,， fashion_mnist]: 
h5.create_array( 
h5.root[name]l，trainX', self[name].train_data) 
h5.create_array( 


h5.root[name]l， trainY , self[namejtrain_label) 


h5.create_array( 


二 | 


h5.root[name]，testX, self[namejtest_ data) 


h5.create_array( 


二 | 


h5.root[name]， testY, self[nameljtest label) 
elif name == cifar10 
h5.create_array 
h5.root[name] trainX ,self change(self[name]trainX)) 
h5.create_array(h5.root[name]， trainY, self[nameljtrainY) 
h5.create_array 
h5.root[namej]， testX', self_change(self[namej].testX)) 


h5.create_array(h5.root[namej， testY, self[namej:testY) 


h5.create_array(h5.root[name], label_names, np.array( 
self[name].meta[b'label_names]) 
elif name == cifar100 
h5.create_array 


二 | 


h5.root[name] trainX', self_change(self[name]trainX)) 


h5.create_array 
h5.root[namej] testX', self_change(self[name].testX)) 
h5.create_array 


h5.root[name]， train_coarse_labels, self[namel]train_coarse_ labelS) 


h5.create_array 


h5.root[name]， test_coarse labels, self[namel].test coarse_labels) 
h5.create_array 


h5.root[name]l train _fine_labels, self[name]:train fine labels) 


h5.create_array 


h5.root[name]， test fine_labels, self[namel].test fine_labels) 


h5.create_array(h5.root[name]，coarse_label_names', np.array( 


self[name].meta[b'coarse_ label_names'])) 


h5.create_array(h5.root[name], fine_label_names', np.array( 


self[name].meta[b'fine _ label_names'])) 


然后 ， 在 datasetsome 中 将 新 添加 的 代码 提交 并 推送 到 loader 本 地 仓库 : 


$ cd loader 
$git add . 
$git commit -m “添加 数据 打包 工具 ” 


为 了 方便 管理 该 子 模块 ， 为 其 创建 一 个 分 支 datasetsome， 寺 


$ git checkout -b datasetsome 
接着 ， 将 该 分 支 合并 到 远 端 的 master 上 : 


$git switch master 


$git merge datasetsome 
$git push origin master 
$git switch datasetsome 


这 样 ， 新 增 的 内 容 被 同步 到 了 loader 的 远 端 master 分 支 。 接 着 ， 便 可 以 编写 一 个 使 用 


切换 到 该 分 支 : 


loadercustom/sgenX.py 模块 的 案例 了 。 为 了 方便 调试 以 及 展示 ， 使 用 Jupyter Notebook 编写 使 


案例 。 只 需 写 入 如 下 内 容 便 可 打包 那些 数据 ; 
import sys 

# 为 了 让 loader 子 模块 可 以 使 用 ， 需 要 添加 到 系统 路 径 
SySs.path.append(rD: 迪 pookWdatasetsomeWloader ) 


from custom.genX import Bunch 
root = 'D:datasets' 

# 类 的 实例 化 

bunch = Bunch(root) 

# 打包 数据 

bunch.toHDF5(root) 


将 打包 后 的 数据 移动 到 datasetsome 的 子 模块 datasome Z 


$ cd datasome 
$git add . 
$git commit -m “添加 数据 X.h57” 


> 


下 面 跟 loader 一 样 操作 ， 将 修改 推送 到 远 端 master 分 支 。 


修改 推送 到 远 端 。 
$git add . 
$git commit -m “添加 数据 X.h57” 
$git push origin master 


于 次 


可 到 datasetsome 根 目 录 将 


13.3 编写 datasetsome 的 使 用 案例 


下 面 直接 编写 datasetsome 的 使 用 案例 ， 利 用 子 模块 datasome 的 X.hs 数据 ， 写 一 个 
数据 的 案例 。 


月 


先 在 项 目 datasetsome 根 目录 创建 目录 notebook 用 于 编写 使 用 案例 ， 接 着 创建 文 从 
说 明 .ipynb` 并 写 入 如 下 内 容 : 


%matplotlib inline 


from matplotlib import pyplot as plt 
import numpy as np 
import tables as tb 


def show_imgs(imgs, row): 
展示 多 张 图 片 


n = imgs.shape[0] # 图 片 的 个 数 
h, w = row, int(n / row) # 图 片 队 列 的 行 数 与 列 数 
.figs = pltsupplots(h w figsize=(5 5) 
K = np.arange(m).reshape((h, WwW)) 
foriin range(h): 
forj in range(w): 
img = imgs[K[i, 站 # 取出 一 张 图 片 并 放 入 指定 位 置 
figs[iU].imshow(kimg) # 显示 图 片 
figs[i][].axes.get_xaxis(.set_visible(False) # 隐藏 坐标 轴 x 
figsfi]U].axes.get_yaxis().set_visible(False) # 隐藏 坐标 轴 y 
pltshow(0 
接着 编写 X.hs 的 使 用 : 
root = ./datasome/X.nh5' 


h5 = tb.open_file(root) 
show_imgs(h5.rootcifar100.trainX[99:114], 3) 
h5.close() 


输出 如 图 13.1 所 示 的 图 片 。 


多 几 多 | 下 | 本 


图 13.1 可 视 化 多 张 Cifar100 图 片 
为 了 更 好 的 使 用 X.h5s 数据 集 我 们 需要 编写 一 个 模块 
class XDecode: 
def _init_(self root='.V/datasome/X.h5): 
"解析 数据 X 
实例 属性 


members 即 [mnist,， fashion_mnist，cifar100，cifar10)] 
selfh5 = tb.open_file(root) 
se 上 fmembers = selfh5.root_membpbers 
def summary(self): 
“打印 X 数 据 的 摘要 信息 ” 
print(self.h5) 
def get members(self name): 
"获得 给 定 name 的 成 员 名 称 列 表 
参数 


name in [mnist, fashion_mnist，cifar100，cifar10)] 
return selfh5.root[name]，members 

def get mnist members(se 几 : 
return selfh5.root.mnist_members 

def get_ trainX(self name): 


"获得 给 定 name 的 trainX 
参数 


name in [mnist,， fashion_mnist，'cifar100，cifar10)] 


return selfh5.get _node(f name}，trainX) 
def get_ testX(self name): 


"获得 给 定 name 的 testX 
参数 


name in [mnist, fashion_mnist，cifar100，cifarm10)] 


return selfh5.get_node(f namej，testX) 
def get_ trainY(self name): 


"获得 给 定 name 的 trainY 
参数 


name in [mnist,，fashion_mnist，'cifar10]] 


return selfh5.get_node(f/namel，trainY)) 
def get_ testY(self name): 


"获得 给 定 name 的 testY 
参数 


name in [mnist,， fashion_mnist，'cifar10]] 


return selfh5.get_node(f namej，testY) 
def get_ train_coarse_labels(self: 

"获得 Cifar100 训练 集 的 粗 标签 ” 

return selfh5.get_node(Vcifar100，*train_coarse_labels ) 
def get_ train_fine_labels(se 几 : 

"获得 Cifar100 训练 集 的 细 标 签 ” 

return selfh5.get_node(Vcifar100 train_fine_labels') 
def get_ test_coarse_labels(self): 

"获得 Cifar100 测试 集 的 粗 标签 ” 

return selfh5.get_node(Vcifar100，'test_coarse_labels') 
def get_ test fine_labels(self): 

"获得 Cifar100 的 测试 集 细 标 签 ” 

return self.h5.get_node(Vcifar100，'test fine_labels') 
def get_coarse _label_names(self): 

"获得 Cifar100 测试 集 的 粗 标 签 的 名 称 ” 

label_names = selfh5.get_node(Vcifar100，coarse label_names ) 

return np.asanyarrayllabel_names， "U ”) 
def get fine_label_names(self): 

"获得 Cifar100 的 测试 集 细 标 签 的 名 称 ” 

label_names = selfh5.get_node(Vcifar100，fine_label_names ) 

return np.asanyarrayllabel_names， "U”) 


def get label_names(self namey): 
"获得 给 定 name 的 标签 名 称 


name in [mnist,，fashion_mnist，cifar10]] 
ifname == cifar10 
label_names = selfh5.get_node(Vcifar10，label_names') 
return np.asanyarray(label_names， "U ”) 
elif name == fashion_mnist : 
return [ 
'T-shirt/top，Trouser，Pullover，Dress，Coat ， 
'Sandgdal， Shirt， Sneaker，Bag，Ankle booet 
] 
elif name == mnist : 
return np.arange(10) 
下 面 再 编写 Xdecode.py 的 使 用 说 明 。 首 先 ， 使 用 Jupyter Notebook 载 入 数据 解析 器 ， 如 图 
13.2 所 示 。 


》 


Jupyter X 使 用 说 明 Last checkpoint' 1 天 前 (unsaved changes) 吧 Logout 
File Edit View Insert Cell Kernel Widgets Help Trustex | Python 3 O 
四 二 2 多 品 人 个 业 HRun 国 |C 种 code v| | 加 


In [1] 时 %matplotlib inline 
from matplotlib import pyplot as plt 
import numpy as np 


In [2] 时 import sys 
sys. path. append( ../loader ) 


In [3]: 时 from utils.xdecode import XDecode 


In [4]: 时 root =- ../datasome/X.h5” 
X = XDecode(root) 


图 13.2 实例 化 XDecode 
接着 ， 便 可 以 使 用 X.get_label_names (name) 获取 'mnist，fashion_mnist，'cifarl10' 的 
标签 名 称 ， 有 具体 见 图 13.3。 而 对 于 'cifar100' 分 为 粗 标签 与 细 标 签 ， 具 体内 容 见 图 13.4。 


In  L6]: 由 X. get_label1_names( mnist” ) 


Out [61: array([0，1，2，3，4，5，6，7， 8，9]) 


IT7]35 同和 Eet label nanes( fashiorn mnist) 


OutL[I7]: [Tshirt/top ， 
"Trouser 
" Pullovecr'” ， 
" Dress' ， 
"Coat'” ， 
"Sandal1” ， 
”SbdiPc 5 
”Sneaker ” ， 
“Bag ” ， 
“Ankle boot ] 


In [s]: 时 X.get_label_names( cifarl10”) 
Out[8S]: array(['" airplane”"， "automobile"， "bird'， "cat'， "deer' ， "dog' ， ”frog" 
" horse" ， "ship” ， ”truck'" ]， dtype=”<U10' ) 


13.3 获取 mnist, fashion_mnist，'cifar10' 类 别名 称 


In [9] : 罗 X. get_coarse_label_names () 太 玫 殉 c771a700 办 胡 和 葵 


Our19]: array([ aquatic_mammals” ， "fish ， "flowers”， "food_containers ， 
" fruit_and_vegetables”， "household_electrical_devices " ， 
“household_furniture”， "insects”， "large_carnivores ， 
"large_man-made_outdoor_things” ， "1large_natural_outdoor_scenes '"， 
”1large_omnivores_and_herbivores”， ”medium _mammals”， 
"non-insect_invertebrates ” ， ”people ， "reptiles` ， ”small_mammals” ， 
"trees”， ”vehicles_l1' ，"vehicles 2" ]，dtype= ”<U30"”) 


元 【10] : 网 | X. get_fine_label_names( ) 交底 殉 cz7ia700 用 大 和 葵 


Out[10]: array([" apple' ， "aaquarium_fish' ， "baby” ，“"bear'，”"beaver' ， "bed  ， 
"beetle' ，“"bicycle' ，"bottle" ，“"bow1l” ， "boy” ，“"bridge' ，“”bus'， 
butterfly” ， ”camel" ， "can" ， "castle' ， "caterpillar' ， "cattle'， 
chair” ， "chimpanzee”，"” clock” ，“"cloud'  ，"，cockroach'  ，“”couch' ， 
"crab'" ， "crocodile'" ， "cup" ， "dinosaur” ， "dolphin” ， ”elephant"， 
flatfish'，"forest' ， "fox'， "girl ，“"hamster”，“”“house'"， 

kangaroo'" ， "keyboard'”  ， "lamp” ， ”lawn_mower”  ， ”leopard” ，“"1lion ， 
lizard” ， "1lobster”， "man” ， "maple_tree"， "motorcycle" ， "mountain” ， 
mouse”， "mushroom ， "oak_tree"” ，“"，orange'” ，"，orchid  ，"，otter ， 
palm_tree" ， ”pear  ， "pickup_truck”，”"pine_tree" ， ”plain ” ， ”plate "， 
poppy”， ”porcupine”， "possum ，“"rabbit” ， ”raccoon ， "ray"， "road ， 
rocket'" ， "rose'" ， "sea' ， "seal' ， ”shark'” ， "shrew"” ， ”skunk”， 
skyscraper”， "snail”， ”snake"， "spider”， ”saquirrel”， "streetcar ， 
sunflower”， "sweet_pepper”， "table'" ， "tank'” ，"telephone '"， 
television”，“"tiger'， "tractor ，“"train”，"trout' ， "tulip ， 
turtle"”， ”wardrobe"，“"whale"， "willow_ tree"， ”wolf”， "woman ， 
”worm' ] ， dtype="<U13' ) 


图 13.4 获取 Cifar100 的 标签 列表 


获取 'mnist, 'fashion_mnist', 'cifar10' 的 数值 标签 ， 可 参考 图 13.5。 
下 面 介绍 数值 型 数据 ， 因 为 训练 集 与 测试 集 是 一 致 的 ， 所 以 仅仅 展示 测试 集 。 


10]: 峙 X.get_testYCmnist)[:] 水 07st” 的 教委 碳 签 


Out[10j:; array([7，2，1，..,.，4，5，6]) 


11]: 了 X.get_testY(fashion mnist )[:] 沙 7iashnzon_mn7st” 克 霄 搞 碳 签 


Out[11]: array([9，2，1，...，8，1，5]) 


12]: 网 |X.get_ testY(cifar10' )[:] 冰 ce7tar70” 克 数 仿 碳 签 


Out[12] : array([3，8，8，...，5，1，7]) 
图 13.5 获取 mnist, fashion_mnist, 'cifar10' 的 数值 标签 
同样 可 以 获取 'cifar100' 的 数值 标签 ， 有 具体 见 图 13.6。 


获取 'cifar100' 的 数值 标签 


网 | X. get_test_coarse_labels(O[:] 六" czPer700” 的 教委 北 帮 签 


:[13]: array([10，10， 0，...， 4，8， 2]) 


骨 X. get_test_fine _ labelsO[:] 页 czfar700” 所 烧 篇 细 页 签 
:[14] : array([49，33，72，...，51，42，70]) 


图 13.6 获取 'cifar100' 的 数值 标签 
可 以 使 用 切片 或 者 索引 的 方式 获取 图 片 的 数组 信息 ， 有 具体 见 图 13.7。 


获取 数据 的 图 片 数 组 


[15]: 网 | X.get_testXCmnist )[0]. shape # 抠 一 焉 "pst 属 乒 六 旋 辐 spnape 


out[15]: (28，28) 


[16] : 网 X- get_testX(C fashion_ mnist”) 
Out[16]: /fashion_mnist/testX (Array(10000，28，28)) ”” 
atom := UIntSAtom(shape=()，dflt=0) 
maindim := 0 
flavor :=“”“numpy” 
byteorder :-“，irrelevant” 
chunkshape := None 
[17]: ” 导 | X.get_testXC cifar10 ) [0]. shape 产 拟 一 焉 "crar710 属 睛 玉 旋 右 spnape 


Out[17] : (32， 32，3) 

图 13.7 用 切片 或 者 索引 的 方式 获取 图 片 的 数组 信息 
为 了 综合 标签 名 称 与 图 片 的 信息 ， 可 以 定义 一 个 函数 : 

def show_imgs(imgs, labels row_nurm): 


“展示 多 张 图 片 ， 并 显示 图 片 标签 


n = imgs.shape[0] 
assertn % row_num==0， 请 输入 可 以 整除 图 片 数 量 的 行 数 " 
h w = row_num, int(n /row_num) 
fig, ax = pltsubplots(h, w, figsize=(7 7)) 
K = np.arange(m).reshape((h, WwW)) 
names = labels.reshape((h, WwW)) 
foriin range(h): 
forj in range(w): 
img = imgs[kKL ,中 
ax[iU].imshow(img) 
ax[i][].axes.get_yaxis().set_visible(False) 
ax[i][].axes.set_xlabel(names[i 四 ) 
ax[i][U].set_xticks() 
pltshow0) 
有 具体 效果 ， 见 图 13.8。 
最 后 ， 将 上 述 的 改变 提交 的 本 地 仓库 并 上 传 到 Github 远 端 。 


In [19]: |name = "cifarl00' 
select_image_ id = slice(100, 112) 


imgs = X. get_testX(name) [select_image_idj] 


label_names 


X. get_fine_label_names () 


labels = X. get_test_fine_labels() [select_image_id] 交 区 玫 友 人 答 朱 雪人 入 厂 南 
labels = np. array([label_names[ind]j for ind in labels]) 


Trow_num = 二 


show_imgs(imgs，1labels，row_num) 


号 yscraper 


castie 


本 章 主 要 介绍 了 如 何 将 数据 处 到 


couch 


图 13.8 可 视 化 多 张 图 片 


13.4 本 章 小 结 


与 代码 设计 集成 于 一 体 并 上 传 到 GitHub 包装 为 一 个 项 目 。 


利用 Git LES 管理 大 文件 ，Git 子 模块 处 理 多 个 子 项 目 。 


第 14 章 


TensorFlow 基础 教程 


前 面 的 章节 已 经 介绍 了 MXNet 的 基础 教程 ， 本 章 主 要 讨论 如 何在 数据 集 X 上 学 习 


TensorElow2 的 入 门 教程 。 本 章 大 部 分 内 容 参 考 TensorFlow 的 官方 教程 。 本 书写 作 本 章 的 初 夷 
是 由 于 MXNet 与 Pytorch 的 基础 教程 在 《动手 学 习 深 度 学 习 》 中 的 教程 已 然 很 丰富 ， 但 是 关 


于 TensorFlow2 的 中 文教 程 并 不 是 那么 的 系统 ， 所 以 本 章 借 此 简单 的 介绍 TensorFlow2 基础 教 


程 。 


14.1 使 用 keras.Sequential 搭建 模型 


%matplotlib inline 


在 TensorFlow 中 ， 借 助 子 模块 tkeras 的 Sequential 类 很 容易 搭建 一 个 神经 网 络 模型 : 


from matplotlib import pyplot as plt 
import numpy as np 


import sys 
Sys.path.append('`../loader) 
from utils.xdecode import XDecode 


X = XDecode('../datasome/X.h5) 
载 入 并 准备 好 MNIST 数据 集 。 将 样本 从 整数 转换 为 浮 点 数 : 


name = 'mnist' 


x_train, y_train = X.get_ trainX(name)[:], X.get_trainY(name)[:] 

X_test, y_test = X.get_ testX(name)[:], X.get_ testY(name)[:] 

Xx_train, x_test =Xx train /255.0, x_test/ 255.0 

上 面 的 例子 我 们 将 数据 集 X 当 作 一 个 基础 数据 集 ， 获 取 了 数据 集 MNIST 的 训练 集 和 测试 
并 且 将 数据 集 的 图 片 像素 数组 转换 为 浮 点 型 ， 且 对 其 作 了 数据 归 一 化 处 理 。 为 了 搭建 神经 


网 络 模型 ， 需 要 借助 t 比 keras.Sequential 类 搭建 网 络 “ 积 木 ” 将 模型 的 各 层 堆 堆 起 来 ， 以 搭建 模 


import tensorflow as 证 
# 创建 网 络 模型 “ 积 
model = tf.keras.models.Sequential([ 
攻 f.keras.layers.Flatten(input_shape=(28, 28))， 
攻 .keras.layers.Dense(128, activation='relu )， 
tf.keras.layers.Dropout(0.2)， 
攻 .keras.layers.Dense(10, activation='softmax) 
]) 
为 模型 选择 优化 器 和 损失 函数 : 
model.compile(optimizer='adam， 
loss='sparse_categorical _crossentropy，metrics=['accuracy)]) 
# 打印 十 的 版 本 信息 
print(tf._version _) 
输出 版 本 号 为 : 
2.0.0 
这 样 ， 便 完成 了 模型 的 准备 工作 : 数据 准备 、 模 型 构建 、 定 义 损失 函数 、 定 义 优 化 器 。 下 


面 使 用 `fit 函数 训练 模型 : 


model:fit(x_train, y_train, epochs=5) 


jh Hb 四 
输出 结果 : 


Train on 60000 samples 
Epoch 1/5 


0.9129 
Epoch 2/5 


0.9575 
Epoch 3/5 


0.9674 


Epoch 4/5 


60000/60000 [==============================] - 2Ss 35us/sample - loss: 0.0883 - accuracy: 
0.9730 

Epoch 5/5 

60000/60000 [==============================] - 2Ss 35us/sample - loss: 0.0760 - accuracy: 
0.9761 


该 结果 显示 了 模型 的 训练 过 程 的 损失 函数 以 及 准确 度 。 最 后 ， 使 用 模型 的 evaluate 函数 获 
取 测 试 集 的 准确 度 : 

model.evaluate(x_test，y_test, verbose=2) 

输出 结果 为 : 

10000/1 - 0s - loss: 0.0410 - accuracy: 0.9770 

[0.07469123949403875, 0.977] 

可 以 看 出 训练 的 泛 化 性 在 测试 集 "F 表 现 不 错 。 


14.2 FASHION-MNIST 可 视 化 实验 结 


首先 载 入 一 些 必 备 的 包 :; 
# TensorFlow and tf.keras 
import tensorflow as 匡 

from tensorflow import keras 


#Helper libraries 
import numpy as np 
from matplotlib import pyplot as plt 
# 让 Jupyter Notebook 的 画图 可 见 
%matplotlib inline 
载 入 自 定义 包 : 
import sys 
Sys.path.append('`../loader) 
from utils.xdecode import XDecode 
下 面 定义 一 个 可 以 处 理 MNIST 与 FASHIO-MNIST 的 通用 类 : 
class Loader: 
def _init_(self, root name): 
"针对 MNIST 与 FASHION-MNIST 的 一 个 通用 处 理工 具 " 
self.X = XDecode(root) # 载 入 数据 集 X 
self.get_data(name) # 通过 给 的 name 获取 训练 集 与 测试 集 
# 获取 数据 的 标签 名 称 
self.class_names = self.X.get_label _names(name) 
def get_data(self, name): 
"通过 给 的 name 获取 训练 集 与 测试 集 " 
Xx_train = self.X.get trainX(name)[:] 
X_test = self.X.get_testx(name)[:] 
# 数据 归 一 化 
self.x_train, self.x_test = x_train / 255.0, x_test / 255.0 
self.y_train = Self.X.get_ trainY(name)[] 


self.y_test = self.X.get testY(name)[:] 
def get_ model(self): 
"定义 模型 " 
model = keras.Sequential([ 
keras.layers.Flatten(input_shape=(28, 28))， 
keras.layers.Dense(128, activation='relu )， 
keras.layers.Dense(10, activation='softmax) 
]) 
return model 
def fit(self, epochs=10): 
"训练 模型 " 
model = self.get model() 
model.compile(optimizer='adqam， 
loss='sparse_categorical_crossentropy， 
metrics=['accuracy]) 
model.fit(self.x_train, self.y_train, epochs=epochs) 
return model 
def predict(self model): 
"通过 训练 好 的 模型 预测 测试 集 的 标签 " 
predicted _array = model.predict(self.x_test) 
return predicted _array 


def plot image(self, img, predicted_array, true_label): 


plt.grid(False) 

plt.xticks([]) 

plt.yticks([]) 

# 由 于 图 片 是 灰 度 图 ， 所 以 采用 pltcm.binary 
pltimshow(img, cmap=pltcm.binary) 

# 获取 置信 度 最 大 的 标签 

predicted label = np.argmax(predicted _ array) 
if predicted _ label == true_label: 


color = 'blue' 
else: 
color = red 


# 显示 图 片 的 标签 信息 


plt.xlabel("1 (12.0f}% (f)"-format(self.class_names[predicted_labell， 
100*np.max(predicted_array)， 
self.class_names[true_label])， 


color=colon) 


def plot value_array(self, predictions_array, true_label): 


plt.grid(False) # 去 除 图 片 的 网 格 
plt.xticks(range(10)) 
plt.yticks([]) 


thisplot = plt.bar(range(10), predictions_array, color='"#7777777) 


plt.ylim([0, 1]) 

predicted label = np.argmax(predictions_array) 
# 设置 条 状 的 颜色 

thisplot[predicted labell.set_color(red) 
thisplot[true_labell.set_color('blue') 


肝 


样 直接 调用 该 类 的 实例 即 可 完成 模型 的 训练 与 讨 


佑 以 及 可 视 化 : 


root = ../datasome/X.h5， 

name = fashion_mnist 

loader = Loader(root, name) # 实例 化 模型 的 数据 载 入 
# 定义 模型 参数 

epochs = 10 # 定义 训练 的 迭代 次 数 

model = loader.fit(lepochs) # 训练 模型 

predictions = loader.predict(model) # 预测 模型 
输出 结果 ; 
Train on 60000 samples 
Epoch 1/10 


0.8243 
Epoch 2/10 


0.8665 

Epoch 3/10 

60000/60000 [==============================] - 7S 123us/sample 
0.8761 

Epoch 4/10 


0.8852 

Epoch 5/10 

60000/60000 [==============================] - 8s 127us/sample 
0.8891 

Epoch 6/10 


0.8953 
Epoch 7Z/10 


0.8996 

Epoch 8/10 

60000/60000 [==============================] - 7s 123us/sample 
0.9033 

Epoch 9/10 


0.9064 
Epoch 10/10 


0.9106 


该 结果 显示 了 训练 的 速度 以 及 损失 函数 和 准确 度 。 最 后 ， 需 要 将 结果 可 视 化 出 来 


#Plot the first Xtest images, their predicted labels, and the true labels. 
# Color correct predictions in blue and incorrect predictions in red. 
num_rows = 5 
num_cols = 3 
num_images = num_rows*num_cols 
start_id = 100 # 图 片 的 起 始 ID 
plt.figure(figsize=(2*2*num_cols, 2"num_rows)) 
forkin range(num_images): 
plt.subplot(num_rows, 2*num_cols, 2*k+1) 


- loss: 


- loss: 


- loss: 


- loss: 


- loss: 


- |oss: 


- loss: 


- |oss: 


- |oss: 


- loss 


0.4989 - 


0.3722 - 


0.3366 - 


0.3145 - 


297 全 


0.2822 - 


0.2708 - 


0.2587 - 


0.2483 - 


: 0.2405 - 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


accuracy: 


img = loader.x_test[start_ id + k] 
true_label = loader.y_test[start_id + k| 
predicted_array = predictions[start_ id + k] 
loader.plot imagelimg, predicted_array, true_label) 
loader.plot_ imagelimg, predicted_array, true_label) 
plt.subplot(num_rows, 2"num_cols, 2"k+2) 
loader.plot value_array(predicted_array, true_label) 
plt:tight_layout() 
plt.show() 
Shirt 99% (Shirt) | Sneaker 100% (Sneaker) 


输出 图 片 ， 如 图 14.1 所 示 。 
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14.1 测试 结果 的 可 视 化 


14.3 PyTorch、TensorFlow、MXNet 的 数据 操作 


PyTorch，TensorFlow，MXNet 操作 数据 的 方法 很 相似 。 它 们 为 了 文 持 GPU 等 设备 对 数据 
进行 运算 均 定 义 了 “ 张 量 ” 的 实体 。PyTorch 使 用 torch.Tensor ，TensorFlow2 使 用 
tensorflow.Tensor，MXNet 使 用 mxnetnd。 先 载 入 相关 的 库 

from mxnet import nd 

import torch 
import tensorflow as 证 


这 里 MXNet 的 nd 与 NumPy 最 为 接近 。 则 以 使 用 nd.arange(12)，nd.zeros((2,，3, 4))， 
nd.array([[2，1，4，3]，[1，2,，3, 4]，[4, 3,，2，1]]) 这 些 形式 来 创建 张 量 。 对 应 于 PyTorch 的 
torch.arange(12)，torch.zeros((2，3,，4)) ，torch.tensor([[2，1,， 4, 3],， [1，2,，3, 4], [4, 3，2，1]]) 。 而 
TensorFlow 对 应 于 ttrange(12)，tft.zeros((2, 3, 4))，tt.constant ([[2,， 1, 4, 3]，[1, 2，3, 4], [4，3，2， 
I])。 

关于 它们 的 张 量 的 加 法 、 减 法 、 乘 法 、 除 法 、 和 矩阵 运算 等 直接 类 比 NumPy 即 可 。 


14.4 PyTorch，TensorFlow，MXNet 目 动 微 分 


对 于 微分 运算 ，TensorFlow，MXNet，Pytorch 各 自 有 不 同 的 定义 。 其 中 MXNet，Pytorch 
极为 相近 。 
我 们 讨论 一 个 向 量 内 积 的 微分 ， 即 x e nx1， 计 算 导 数 : 二 (xzTx)] = 2x。 
下 面 以 x = (0,12,3,4) 为 例 使 用 不 同 的 深度 学 习 框架 来 计算 其 内 积 的 导数 。 
先 使 用 NumPy 创建 一 个 列 向 量 ; 
import numpy as np 
x= np.arange(5.).reshape(-1,1)# 设置 数据 类 型 为 浮 点 型 
先 看 看 如 何 使 用 Pytorch(1.2.0 版 本 ) 编 写 求 微 分 的 运算 ?为 了 可 以 利用 链 式 法 则 进行 梯度 
传播 需要 将 张 量 属性 requires_grad 设置 为 True， 以 此 开始 追踪 (traclo 在 其 上 的 所 有 操作 : 
人 torch 
三 让 mw ogg 
y = 和 X) # 和 矩阵 乘法 
在 Pytorch 中 grad 在 反 向 传播 过 程 中 是 累加 的 (accumulated)， 这 意味 着 每 一 次 运行 反 向 传 
， 梯 度 都 会 累加 之 前 的 梯度 ， 所 以 一 般 在 反 向 传播 之 前 需 把 梯度 清 零 。 不 过 ， 这 里 仅仅 只 运 
行 一 次 反 向 传 ， 不 需要 清 零 ， 
# Xx.grad.data.zero_() # 梯度 清 零 
y.backward() # 反 向 传播 
最 后 ， 使 用 x.grad 获取 y 关 于 x 的 梯度 。 
关于 MXNet 的 求 梯度 的 运算 在 前 面 的 章节 亦 有 所 阐述 ， 下 面 仅 仅 提 供 一 个 代码 实例 ; 
X = nd.array(X) 
x.attach_grad() # 添加 追踪 
with autograd.record(): # 记录 需要 计算 梯度 的 变量 
y=2”nd.dot(x.T, X) 
y.backward() # 反 向 传播 
x.grad# 获 取 梯 度 
最 后 ， 再 来 看 看 TensorFlow 如 何 求解 微分 ” 
x= np.arange(5.).reshape(-1,1)# 设置 数据 类 型 为 浮 点 型 
X = 攻 .-constant(X) 
with tf.GradientTape() ast# 记 录 需 要 计算 梯度 的 变量 
t.watch(x) # 追 踪 x 的 梯度 
y=fmatmullttftranspose(X),X) 
# 计算 y 对 x 的 梯度 
dy_ dx =tgradient(y, X) 


S 


企 constant 指 代 TensorFlow 中 的 
不 需要 显 式 追 踪 x 的 梯度 ， 即 下 面 的 代码 也 可 达到 上 个 代码 的 效果 ; 


466 9 - 国 . 


常量 ”， 而 t 比 Variable 是 TensorFlow 中 的 “ 变 


量 ”， 且 


x= np.arange(5.).reshape(-1,1)# 设置 数据 类 型 为 浮 点 型 

X=tf.Variable(X) 

with tft.GradientTape() ast 芒 # 记录 需要 计算 梯度 的 变量 
拱 .watch(x) ## 追 踪 x 的 梯度 
y=tfmatmullttftranspose(X),X) 

# 计算 y 对 x 的 梯度 

dy_dx =tgradient(y, X) 


14.$ TensorFlow 实现 手写 汉字 分 类 


的 实例 


第 6 章 我 们 已 经 讨论 过 CASIA 手写 汉字 这 一 个 数据 集 ， 为 了 让 数据 更 加 友好 ， 需 要 进 一 
步 的 简化 。 本 教程 讨论 HWDB1.0~1.1 以 及 OLHWDB1.0~1.1， 下 载 到 个 人 电脑 的 同一 目录 下 : 


##CAS/1 玉 的 俩 所 丰台 语 有 灵 

root ='D:datasets 人 /OCR/CASIA/data 
载 入 本 教程 需要 使 用 的 包 : 
import struct 

from pathlib import Path 

from zipfile import ZipFile 

import numpy as np 

import tables as tb 
Path 更 加 友好 的 管理 文件 的 路 径 : 
root = Path(root) 

## 雪 得 1oot 扒 会 新 文人 所 
[name.parts[-1] for name in root.iterdir()] 
下 面 显 示 了 本 章 所 使 用 的 数据 : 
[HWDB1.0trn.zip 
"HWDB1.0trn_gnt.zip ， 
"HWDB1.0tst.zip ， 
"HWDB1.0tst_gnt.zip， 
"HWDB1.1trn.zip'， 
"HWDB1.1trn_gnt.zip ， 
'HWDB1.1tst.zip， 
"HWDB1.1tst_gnt.zip， 
'OLHWDB1.0test_pot.zip ， 
'OLHWDB1.0train_pot.zip ， 
'OLHWDB1.0trn.zip'， 
'OLHWDB1.0tst.zip ， 
'OLHWDB1.1trn.zip'， 
'OLHWDB1.1trn_pot.zip ， 
'OLHWDB1.1tst.zip'， 
'OLHWDB1.1tst_pot.zip] 


每 个 单字 的 特征 均 以 .mpf 形式 保存 手工 特征 ， 可 以 看 出 上 述 文 件 均 为 压缩 包 ， 下 面 使 用 
zipfile 包 去 压缩 文件 进行 解读 ; 


z=ZipFilellisttroot.glob(*“7HWDB1.Otm.zipy)[O]) 

z.namelist()[1:5] # 查看 前 4 个 人 写 的 MPF 

显示 结果 如 下 : 

[HWDB1.Otrm001.mpf， 

'HWDB1.0trm/002.mpf， 

'HWDB1.0trm/003.mpf， 

'HWDB1.0trn/004.mpf 

载 入 MPF 的 解码 器 : MPFDecoder， 有 具体 见 我 的 GitHub， 即 在 GitHub 搜索 关键 字 : 


xinetzone/loader， 下 面 载 入 需要 的 包 : 
import sys 
sys.path.append("..loader" # Iloader 仓库 路 径 
from casia.feature import MPFDecoder zipfile2bunch 


14.5.1 loader 的 制作 原理 


| 
O 


先 简要 了 解 loader 的 制作 原理 
1. 将 MPF 转换 为 bunch。 
zip_name = list(root.glob(“HWDB1.0trn.zip))[O] 
mb = zipfile2bunch(zip_name) 
2. 将 bunch 转换 为 JSON。 
先 载 入 一 些 工 具 : 
from utils.dataset import bunch2json, json2bunch 
测试 bunch 转换 为 JSON 的 时 间 : 

%ocpetime 

json_path = 'data/features.json' 

bunch2json(mb, json_path) 

输出 结果 : 
Walltime: 1.04 s 
再 载 入 看 JSON 花费 的 时 间 : 
%ocpetime 

## 瑚 次 霄 入 雪 控 

mpf bunch = json2bunch(son_path) 
显示 输出 : 
Walltime: 812 ms 

可 以 看 出 ON 的 载 入 时 间 很 短 。 

3. 将 bunch 转换 为 HDFS 

下 面 载 入 bunch 转换 为 HDF5 需要 的 包 : 
from casia.feature import bunch2hdf 

测试 bunch 转换 为 HDF5 的 时 间 : 
%ocpetime 

hdf_path = 'data/features.h5' 
bunch2hdf(mpf_bunch, hdf_patm) 

显示 输出 : 
Walltime: 2.4s 
下 看 看 载 入 HDFS 花费 的 时 间 : 


-HH 


%ocpetime 

h5 =tb.open file(hdf_path) 
显示 输出 : 
Walltime: 1 ms 

可 以 看 出 此 时 花费 的 时 间 更 短 ， 可 以 以 下 面 的 方式 获取 MPF 的 特征 和 矩阵 及 其 shape: 

## 狂 大 夺 个 mmpf 的 等 自生 奔放 shape 

h5.root.HWDB1_otrn 001_mpf.features[:].shape 

输出 结果 为 〈 样 本 数 ， 特 征 向 量 维 数 ) : 

(3728, 512) 

龙 可 必 获 殉 MPF 的 竺 和 扒 篇 收 介 

头 诡 大 右 人 mpf 力 竺 在 介绍 

h5.root.HWDB1_0otrn 001_mpf:text.read() 

显示 结果 如 下 : 

b'Character features extracted from grayscale images. 订 trtype=ncg, #norm=ldi, #spect=4, #dirn=8， 
#zone=8, 巡 step=8, 州 step=8, $deslant=0, $smooth=0, $nmdir=0, $multisc=0' 

率 灵 和 读 MPF 竺 你 江 不 金 ， 我 困 还 局 要 着 访 丰 逢 MI 竺 开放 和 丛 : 

光 玫 碟 加 个 mpf 奈 和 丛 售 写 

labels = h5.root.HWDB1_Otrn 001_mpf.labels.read().decode() 

labels = np.array(labels.split( )) 


labels 

显示 结果 为 ; 

array([ 扼 '， 遇 ， 哪 , …， 娥 ， 恶 , ' 厄 ], dtype='<U1) 

4 测试 JSON 与 HDFS 的 文件 大 小 

为 了 比较 JSON 与 HDFS5 的 性 能 ， 需 要 测试 它们 的 占用 大 小 : 
import os 

from sys import getsizeof 

print( 


f"JSON Python 对 象 占 用 空间 大 小 为 {getsizeof(mpf_bunch)/le3} kB,， 文 件 大 小 为 
{os.path.getsize(son_path)/1e9} G) 
print( 
f"HDF5 Python 对 象 占 用 空间 大 小 为 {getsizeof(h5)} B, 文件 大 小 为 {fos.path.getsize(hdf_path)y/1e9} 
G) 
h5.close() 炙 光 历 
输出 结果 为 : 
JSON Python 对 象 占 用 空间 大 小 为 9.32 kB, 文件 大 小 为 0.65487944 G 
HDF5 Python 对 象 占用 空间 大 小 为 80 B, 文件 大 小 为 0.644292324 G 
可 以 看 出 JSON 与 HDFS 载 入 到 内 存 的 大 小 并 不 是 很 大 ， 但 是 JSON 又 比 HDF5 大 100 多 


倍 ， 所 以 HDFS 的 性 能 优 于 JSON 。 


14.5.2 打包 多 个 zip 文件 


为 了 整合 多 个 压缩 文件 ， 接 下 来 需要 将 其 打包 。 首 先 需 要 将 压缩 文件 进行 划分 : 
zip_gnt_names = set(root.glob(*gnt*.zip)) #GNT 名 称 列表 

zip_pot_names = set(root.glob(*pot*.zip)) # POT 名 称 列表 

# MPF 名 称 列表 


zip_mpf_names = set(root.iterdir() - zip_pot_names - zip_gnt_names 


zip_mpf_names 


显示 结果 : 


{WindowsPath(CD:datasets/OCR/CASIAdata/HWDB1.0trn.zip )， 
WindowsPath(D:datasets/OCR/CASIAdata/HWDB1.0tst.zip )， 
WindowsPath(D:datasets/OCR/CASIAdata/HWDB1.1trn.zip )， 


WindowsPath(D:datasets/ODCR/CASIAdata/OLHWDB1.0trn.zip )， 


( 
( 
( 
WindowsPath('D:/datasets/DCR/CASIAdata/HWDB1.1tst.zip)， 
( 
( 
( 


) 
WindowsPath(CD:ydatasets/OCR/CASIA/data/OLHWDB1.0tst.zip)， 
WindowsPath(D:datasets/OCR/CASIAdata/OLHWDB1.1trn.zip )， 
WindowsPath(D:datasets/ODCR/CASIAdata/OLHWDB1.1tst.zip)} 


下 面 的 代码 将 压缩 文件 划分 为 POT，GNT，MPF， 下 面 先 研究 MPF: 


mpf bunch = 人 # 打 包 全 部 MPF 为 bunch 
for mpf name in zip_mpf_names: 
mpf bunch.update(zipfile2bunch(mpf_name)) 
保存 为 JSON 并 测试 花费 时 间 : 
%ocpetime 
json_path = 'data/features.json ' 
bunch2json(mpf_bunch, json_path) 
显示 结果 为 : 
Walltime: 5.78 s 
保存 为 HDF5 并 测试 花费 时 间 : 
%ocetime 
hdf_path = 'dqata/features.h5' 
bunch2hdf(mpf_bunch, hdf_path) 
显示 结果 为 : 
Walltime: 11 s 
载 入 JSON 并 测试 花费 时 间 : 
%ocpetime 
mpf bunch = json2bunch(json_path) 
显示 结果 为 : 
Walltime: 7.96 s 
载 入 HDF5 并 测试 花费 时 间 ; 
%ocpetime 
h5 = tb.open_file(hdf_path) 
显示 结果 为 : 
Walltime: 9 ms 
再 次 测试 文件 大 小 : 
from sys import getsizeof 
print( 
frJSON Python 对 和 象 占 用 空间 大 小 为 
{Path(json_path).stat().st_size/1e9} G7) 
print( 
f"HDF5 Python 对 象 占 用 
{Path(hdf_path).stat().st_size/1e9} G”) 


显示 结果 为 : 


空间 大 小 为 


{getsizeof(mpf bunch)y/1e3} kB， 文 件 大 小 为 


{fgetsizeofl(h5)}) B， 文 件 大 小 为 


JSON Python 对 象 占用 空间 大 小 为 73.824 kB, 文件 大 小 为 2.82091995 G 


HDF5 Python 对 象 占用 空间 大 小 为 80 B, 文件 大 小 为 2.775283309 G 
从 上 述 的 展示 可 以 看 出 HDF5 优 于 JSON 与 Zip 压缩 文件 ， 所 以 下 面 仅仅 考虑 HDF5 文件 。 


14.5.3 解析 features.h5 


如 图 14.2 所 示 ， 展 示 了 features.hs 的 几 个 使 用 技巧 。 
In [43]: 网 h5.get_filesize() 癌 次 克文 余 大 淮 
Out[43] : 2775283309 
In [52]: nodes = h5.1ist_ nodesC 1) 项 观 态 万 让 UP 慌 砍 


In [54]: nodes[0] 


Out154]j: V/HWDB1_ 0trn_001_mpf (Group) ”“ 
children := [features” (Array)， "labels” (Array)， "text” (Array) ] 


In [55]: W len(nodes) # 统 矿 HPF 不 示 


Out[55]: 1440 


In [57]: 导 |data_iter = h5.iter_nodes(/) 兴亡 友 UPF 烧 近 以 炎 代 各 的 方 称 扼 房 
In [60]: 风 next(data_iter) 关 残 芭 一 个 JPF 
Out160j: VHWDB1_0trn_001_mpf (Group) ”“ 
children := [ features” (Array)， "labels” (Array)， "text” (Array)] 


图 14.2 查看 features.hs 的 几 个 简单 特性 


考虑 到 通用 性 ， 图 14.3 定义 了 两 个 函数 分 别 用 于 获取 特征 矩阵 与 标签 。 下 面 依据 图 14.3 
定义 的 两 个 函数 创建 一 个 MPF 迭代 器 ; 
class CASIAFeature: 
def _init_ (self, hdf_path): 
"casia 数据 MPF 特征 处 理工 具 " 
self.h5 = tb.open_flle(hdf_path) 
def features(self, mpf): 
"获取 MPF 的 特征 矩阵" 
return mpf.features[:] 
def labels(self, mpf): 
"获取 MPF 的 标签 数组 " 
labels_str = mpf.labels.read().decode() 
return np.array(labels_str.split( )) 
def _iter _ (self): 
"返回 (features, labels)" 
for mpf in self.h5.iter_nodes(/: 
yield self. features(mpf), self.，labels(mphf) 
CASIAFeature 的 使 用 方法 如 下 : 
mpf iter = CASIAFeature(hdf_path) 
# 以 迭代 器 的 方式 获取 数据 
for features, labels in mpf_iter: 
print(lfeatures.shape, labels.shape) 
break 


In [48] : 


Out[48] : 


喇 


时 mpf_name 


”"HWDB1_0trn_ 007_mpf” 
六 似 多 WPF 奉 名 夭 洛 殉 UPF 

mpf = h5. get_node( /，mpf_name) 
mp 于 


HWDB1_0trn_007_mpf (Group) ” 


children := [features” (Array)， "1labels” (Array)， 


def get_features (mpf) : 


"”“ 获 取 MPF 的 特征 矩阵 ” 
return mpf. features[:] 


def get_labels (mpf) : 
”获取 MPF 的 标签 数组 ” 
labels_str = mpf. labels.read(). decode () 
return np. array(labels_str. splitC “”)) 


"text” 


(Array)] 


features = get_features (mpf)  # 区 砍 殉 不 咎 雁 
labels = get_labels (mpf)  ## 效 砍 友和 从 
14.3 定义 了 两 个 函数 分 别 用 于 获取 特征 矩阵 与 标签 


14.5.4 使 用 TensorFlow 训练 MPF 分 类 器 


一 般 需 要 将 数据 划分 为 训练 集 和 测试 集 ， 在 xinetzone/loader 模块 


class CASIA: 
def _init_ (self, root) 


self.root = Path(root) 


def names2bunch(self names): 
"合并 给 定 的 names 的 bunchy" 


bunch = 个 


for mpf_name in names: 
bunch.update(zipfile2bunch(tmpf _name)) 


return bunch 
def split(self, root): 


"划分 casia 的 bunch 为 训练 集 与 测试 集 " 

train_names = set(root.glob(*trn.zip)) # 训练 集 名 称 列表 
test_names = set(root.glob(*tst.zip)) # 测试 集 名 称 列表 
# names 转换 为 bunch 

train_bunch = self.names2buncht(train_names) 

test bunch = self.names2bunchltest_ names) 

bunch = fitrain': train_ bunch, test': test bunch} 


return bunch 


def bunch2hdf(self, save_path): 
"将 bunch 转换 为 HDF5" 
bunch = self.split(self:root) 
# 过 滤 信息 ， 用 于 压缩 文件 
fitters = tb.Filters(complevel=7, shuffle=False) 
with tb.open_fille(save_path，w', filters=filters, title='Xinet\s casia dataset) as h: 
for group_name, features in bunch.items(): 
h.create_group(/, group_name) 
for name in features: # 生成 数据 集 " 头 " 
_name = name.replace(/， ) 


已 经 实现 了 数据 的 划 


_name = name.replace(.， ) 
h.create_group(f/(group_name)， 
name=_name, filters=filters) 
h.create_array(f group_namej/ 人 name} ， text， 
bunch[group_namel][namej][text].encode()) 
features = bunch[group_namel[name]['dataset] 
h.create_array(f group_namel/ 人 namel" labels， 
"”"Jjoin([lforlin features.index]).encode()) 
h.create_array(f (group_namej/ 人 namel"， 
features', features.values) 
类 CASIA 实现 了 数据 集 的 分 开打 包 ， 下 面 还 需 重 新 CASIA 的 HDF5 文件 的 解析 类 : 
class CASIAFeature: 
def _init_ (self, hdf_path): 
"casia 数据 MPF 特征 处 理工 具 " 
self.h5 = tb.open_flle(hdf_path) 
def _features(self, mpf): 
"获取 MPF 的 特征 矩阵 " 
return mpf.features[:] 
def _labels(self, mpf): 
"获取 MPF 的 标签 数组 " 
labels_str = mpf.labels.read().decode() 
return np.array(labels_str.split( )) 
def train_iter(selh): 
"返回 训练 集 的 (features, labels)" 
for mpf in self.h5.iter_nodes(Vtrain'): 
yield self、features(mpf, self.，labels(mpf) 
def test_iter(self): 
"返回 测试 集 的 (features, labels)" 
for mpf in self.h5.iter_nodes(Vtest): 
yield self、features(mpf, self.，、labels(mpf) 
这 样 便 可 以 像 下面 的 方式 获取 CASIA 的 MPF 数据 : 
hdf_path = 'data/features.h5' # HDF5 文件 所 在 路 径 
mpf dataset = CASIAFeature(hdf_path) 
# 以 迭代 器 的 方式 获取 数据 
for features, labels in mpf_dataset.test_iter(): 
# 打印 特征 向 量 与 标签 的 shape 
print(features.shape, labels.shape) 
break 
显示 结果 为 : 
(3726, 512) (3726,) 
可 以 看 出 此 MPF 保存 3726 个 样本 ， 且 特征 向 量 的 长 度 是 S12。 可 以 直接 将 全 部 的 MPF 
数据 转换 为 NumPy 的 array 格式 : 
hdf_path = "data/features.h5' 
mpf dataset = CASIAFeature(hdf_path) 
# 划分 数据 集 为 训练 集 与 测试 集 
train_features = np.concatenate([features for features，_in mpf_dataset.train_iter()]) 
train_labels = np.concatenate([labels for ,labels in mpf_datasettrain_iter()]) 
test_ features = np.concatenate([features for features，_in mpf_dataset.test_iter()]) 


test_labels = np.concatenate([labels for , labels in mpf_dataset.test iter()]) 
统计 训练 集 与 测试 集 的 标签 名 称 并 判断 它们 是 否 相 同 : 

# 获取 训练 集 的 类 别名 称 集 

train_class_names = set(train_labels) 

# 获取 训练 测试 集 的 类 别名 称 集 

test_class_names = setltest_labels) 

is_same_class = "相同 " ftrain_class_names ==test_class_names else "不 相同 " 
print(f 训 练 集 与 测试 集 的 类 别 标签 是 fis_same_class} 的 ) 

输出 结果 是 : 

训练 集 与 测试 集 的 类 别 标签 是 相同 的 

由 于 训练 集 与 测试 集 的 类 别 标签 是 相同 的 ， 所 以 下 面 可 以 将 类 别名 称 写作 : 
class_names = test_class_names 

这 样 ， 便 可 以 获取 类 别 的 个 数 : 

# 获取 类 别 个 数 

CLASS _ NUM = len(class_names) 

print(' 类 别 个 数 : , CLASS_NUM ) 


输出 结果 为 : 
类 别 个 数 : 3755 
可 以 知道 本 章 使 用 的 CASIA 的 标签 个 数 为 3755。 接 着 ， 需 要 将 名 称 标签 转换 为 数值 型 数 


组 。 首 先 ， 将 类 别名 称 转换 为 〈 编 号 -> 类 别名 称 ) 的 映射 关系 : 

# 将 类 别名 称 转换 为 编号 -> 类 别名 称 的 映射 关系 

cat_ dict = dict(enumerate(class_names)) 

cat_dict[7] 

显示 结果 为 : “上 四、《〈 每 次 运行 的 结果 可 能 一 样 ) 。 我 们 可 以 通过 索引 获取 类 别名 称 ， 这 
样 便 可 以 将 标签 数组 转换 为 数值 型 数组 ; 

# 获取 index -> name 的 dict 

name2index = {cat:cat_ id for cat_idq, cat in cat_dict.items()} 

# 转换 训练 集 的 标签 

_train_labels = np.array([name2index[cat name]for cat_name in train_labels]) 

# 转换 测试 集 的 标签 

_test_ labels = np.array([name2index[cat_namel] for cat name in test_labels]) 

这 里 的 标签 类 别 个 数 有 点 多 ， 下 面 仅 仅 是 为 了 展示 TensorFlow 如 何 创 建 深 度 学 习 网 络 ， 
没有 必要 使 用 那么 多 类 别 。 下 面 仅仅 选择 10 个 字 作 为 我 们 的 学 习 目 标 。 

class_names = [ 登 ， 印 ， 枕 '， 孤 '， 熟 ， 票 ， 琴 '， 驱 '， 否 ， 
揪 ] 
由 于 每 一 个 MPE 文件 代表 一 个 人 写 的 汉字 ， 所 以 需要 在 每 一 个 MPF 搜索 存在 
class_names 的 样本 的 类 : 

class SubCASIA(CASIAFeature): 

def _init_ (self, class_names, hdf_path): 
"casia 子 集 数 据 MPF 特征 处 理工 具 
通过 给 定 的 class_names 获取 CASIA 的 子 集 数 据 


self.h5 = tb.open_flle(hdf_path) 
self.class_names = class_names 
def get_iter(self, super_iten): 
"从 super iter 获取 包含 self.class_names 的 迭代 器 " 
for features, labels in super_iter: 


# 选择 指定 class_names 的 样本 
frame = DataFrame( 人 (features, labels) 
# 选择 frame.index 与 self.class_names 的 交集 
frame = frame.loc[frame.index & self.class_names] 
features = frame.values 
labels = frame.index.values 
yield features, labels 
def sub train_iter(self): 
"从 self:train_iter() 获取 包含 self.class_names 的 和 迭代 器 " 
return self.get_iter(self:train_iter()) 
def sub _ test_iter(self): 
"从 self:test_iter() 获取 包含 self.class_names 的 和 迭代 器 " 
return self.get_ iter(self:test_iter()) 
先 实例 化 : 
class_names = [ 登 ,， 印 ， 枕 '， 孤 美好 '， 琴 '， 驱 '， 否 ， 
" 山 ] 
mpf dataset = SubCASIA(class_names, hdf_path) 
我 们 可 以 看 看 训练 集 有 多 少 个 人 写 了 汉字 : 
n train = 0 
for features, labels in mpf_dataset.sub train_iter(): 
n train += 1 
print(n_train) 
显示 结果 为 : 1152。 接 着 ， 统 计 有 多 少 个 样本 ; 
n train = 0 
for features, labels in mpf _ dataset.sub train_iter(): 
n train += len(labels) 
n test = 0 
for features, labels in mpf_dataset.sub test_ iter(): 
n_test += len(labels) 
print(f" 训 练 集 的 样本 数 fn_trainj， 测 试 集 的 样本 数 fn_test}) 
显示 结果 ; 
训练 集 的 样本 数 11500， 测 试 集 的 样本 数 2869 
重 置 cat_dict: 
cat_ dict = dict(enumerate(class_names)) 
还 需要 重新 划分 数据 集 : 
# 重新 划分 数据 集 为 训练 集 与 测试 集 
train_features = np.concatenate([features for features，_in mpf _ dataset.sub train_iter()]) 
train_labels = np.concatenate([labels for ,labelsin mpf dataset.sub _ train_iter()]) 
test_ features = np.concatenate([features for features，_in mpf dataset.sub test iter()]) 
test_ labels = np.concatenate([labels for ,labels in mpf_dataset.sub test_iter()]) 
将 标签 数组 转换 为 数值 型 数组 ; 
# 获取 index -> name 的 dict 
name2index = {cat:cat id for cat_ id, cat in cat_dict.items()} 
# 转换 训练 集 的 标签 
train_labels = np.array([name2index[cat_name] for cat_ name in train_labels]) 
# 转换 测试 集 的 标签 
test_ labels = np.array([name2index[cat_name] for cat_name in test_labels]) 


接着 ， 将 NumPy 数组 转换 为 TensorFlow 的 迭代 器 : 


渡 


train_dataset = tf.data.Dataset.from_tensor_slices((train_features, train_labels)) 
test_ dataset = tf.dqata.Dataset.from_tensor_slices((test_ features, test_ labels)) 
接着 ， 将 数据 分 成 批量 ， 且 打 乱 训练 集 数 据 : 
BATCH_SIZE = 64 
SHUFFLE_BUFFER_SIZE = 100 
train_dataset = train_dataset.shuffle(SHUFFLE_BUFFER_SIZE).batch(BATCH_SIZE) 
test_ dataset = test_dataset.batch(BATCH_SIZE) 
定义 损失 函数 ， 评 估 函 数 ， 优 化 方法 ; 
# 定义 损失 函数 
loss_object = tf.keras.losses.SparseCategoricalCrossentropy() 
# 定义 模型 训练 的 优化 方法 
optimizer = tf.keras.optimizers.Adam() 
# 选择 衡量 指标 来 度量 模型 的 损失 值 〈loss) 和 准确 率 (accuracy) 。 这 些 指标 在 epoch 上 累积 值 ， 然 
后 打印 出 整体 结果 
train_loss = tf.keras.metrics.Mean(name='train_loss) 
train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy) 
test_ loss = tf.keras.metrics.Mean(name='test_ loss) 
test_accuracy =tf.keras.metrics.SparseCategoricalAccuracy(name='test_accuracy') 
使 用 `ttGradientTape 定义 如 何 训练 模型 以 及 评估 模型 性 能 ; 
# 定义 训练 策略 
Qtf.function 
deftrain_step(images, labels): 
with tf.GradientTape() as tape: 
predictions = model(images) 
loss = loss_object(labels, predictions) 
gradients = tape.gradientlloss, model:trainable_variables) 
optimizer.apply_gradients(zip(gradients, model:trainable_variables)) 
train_loss(loss) 
train_accuracy(labels, predictions) 
# 定义 评估 方法 
Qtf.function 
def test_steplimages, labels): 
predictions = model(images) 
t_ loss = loss_object(labels, predictions) 
test loss(t_ loss) 
test_accuracy(labels, predictions) 
自 定 义 模 型 : 
class MyModel(Model): 
def _init_ (self, CLASS_NUM): 
Super(0).，_init __() 
self.d1 = Dense(300, activation='relu) 
self.d2 = Dense(CLASS_NUM, activation='softmax) 
def call(self,， X): 
X= self.d1(X) 
return self.dq2(X) 
# 实例 化 模型 
CLASS _NUM = len(cat dict) 
model = MyModel(CLASS_NUM) 


蕊 | 


训练 并 评估 模型 : 


EPOCHS = 20 
# 模型 训练 的 过 程 


for epoch 


in range(EPOCHS): 


for images, labels in train_dataset: 
train_step(images, labels) 

fortest images, test_ labels in test_ dataset: 
test_stepltest images, test_labels) 

template = 'Epoch 人, Loss: 人 Accuracy: { 人 ,Test Loss: 人 Test Accuracy: 全 

printltemplate.format(epoch+1， 

train_loss.result()， 

train_accuracy.result()*100， 


# 重 置 


test_ loss.resu 
test_accuracy 
metrics 


train_loss.reset_Sstates() 

train_accuracy.reset_Sstates() 

test_ loss.reset_states() 
test_accuracy.reset_states() 


最 终 的 结果 可 以 查看 图 14. 


上 t()， 
-result(*100)) 


4。 从 图 14.4 可 以 看 出 随 着 训练 次 数 的 增加 训练 集 和 测试 集 上 


的 损失 函数 的 值 都 在 下 降 ， 同 时 训练 和 测试 的 精度 也 在 不 断 的 升 高 。 由 此 可 以 看 出 ， 我 这 随意 


定义 的 模型 的 泛 化 性 能 还 是 不 错 的 嘛 。 


14.6 本 章 小 结 


图 14.4 模型 的 训练 和 评估 结果 


本 章 主 要 介绍 了 TensorFlow2 的 使 用 教程 。 首 先 ， 利 用 FASHION-MNIST 数据 集 展示 了 


TensorFlow 如 何 使 
Pytorch、TensorFlow 对 于 数据 的 操作 以 及 自动 微分 的 使 ) 


CASIA 上 利 


j Model 自 定 义 模 妖 


tfkeras.Sequential 与 tkeras.layers 搭建 模型 ， 接 着 ， 比 较 了 MXNet、 


出 


j 的 不 同 ， 最 后 ， 介 绍 如 何在 数据 集 


